Современные генеративные нейросети позволяют не только создавать изображения по текстовому описанию, но и перенимать художественный стиль конкретного автора. В данном проекте я поставил задачу обучить модель Stable Diffusion рисовать в уникальной манере Винсента Ван Гога — с его характерными экспрессивными мазками, яркой цветовой палитрой и особым ощущением движения.
Почему Ван Гог?
Винсент Ван Гог — художник с предельно узнаваемой манерой: экспрессивный, динамичный мазок, чистая цветовая палитра, эмоциональная насыщенность. Его стиль идеально подходит для экспериментов с обучением нейросетей, потому что он не сводится к простым правилам, но при этом обладает высокой визуальной согласованностью. Если модель сможет усвоить язык Ван Гога, она продемонстрирует глубину понимания художественных приёмов, а не просто поверхностную стилизацию.
Основная идея проекта — не просто наложить стиль Ван Гога на готовые изображения (что делают многие инструменты вроде нейросетевых фильтров), а научить генеративную нейросеть создавать новые, оригинальные работы в манере художника с нуля
Цели проекта
- Собрать репрезентативный датасет картин Ван Гога (различные жанры: пейзажи, натюрморты, портреты), охватывающий ключевые элементы его стиля.
- Обучить LoRA‑адаптер, который позволит Stable Diffusion генерировать изображения в манере Ван Гога.
- Сгенерировать серию изображений на сюжеты, которых нет в оригинальном наследии художника, чтобы продемонстрировать творческий потенциал обученной модели.
- Проанализировать, насколько точно нейросеть передаёт художественный язык Ван Гога, какие элементы стиля усвоены лучше, а где требуются дополнительные данные.
Новизна и значимость
Подобный подход расширяет границы использования ИИ в искусстве: обученная модель становится не просто инструментом, а своего рода «соавтором», способным создавать работы в духе великого мастера. Это может быть полезно для дизайнеров, иллюстраторов, искусствоведов, а также для образовательных целей — демонстрации того, как именно работает усвоение стиля нейросетями.
В отличие от готовых стилевых моделей, доступных в открытых репозиториях, авторская настройка под конкретный художественный язык позволяет получить результат, максимально приближённый к оригиналу, и контролировать каждый этап: от отбора референсов до финальной генерации. Такой подход даёт глубокое понимание внутренних механизмов диффузионных моделей и их возможностей в области художественного синтеза.
Процесс работы
В первую очередь, я использовала нейросеть gpt для того, чтобы найти подлинный источник работ Ван Гога и сформировать четкую и структуированную тему для проекта. Сайт, который я использовала для отбора референсов, по которым я обучала в дальнейшем модель называется www.metmuseum.org, там хранятся архивные подлинные работы художников.
Следующим этапом, я скачала библиотеку сайта и попросила нейросеть найти из всех работы только те, которые принадлежат Ван Гогу. Всего было найдено 151 изображение, но после более корректного отбора и собственноручной проверки, скачено из общего списка было всего 18 картин, которые точно являются работами нужного мне художника. После чего приступила к обучению базовой модели Stable Diffusion, опираясь на основные отличительные характеристики стиля Ван Гога: техника мазка, динамичность, цветовая палитра, сюжетные предпочтения.
Первая попытка была выполнена на условиях того, что модель будет обучаться на 1000 шагах. Общие характеристики, которые модель усвоила при данных параметрах:
- Мазок: прослеживаются характерные закрученные и ритмичные мазки, линия не просто описывает форму, она в ней «живет».
- Цветовая палитра: используются контрастные, насыщенные цвета, которые не реалистичны, а эмоциональны. Модель явно переняла идею «цвет, как выражение чувств».
- Деформация форм: объекты слегка искажены и обобщены, контуры местами утолщены — это соответствует постимпрессионистской манере.
Удалось очень характерное для художника вихревое небо, деревья выглядят практически «пламенеющими» — как у Ван Гога, цветовой контраст: красное здание + зелень. Что на мой взгляд показалось в этих генерациях слабым местом, это архитектура слишком «аккуратная» и цирковая, не хватает текстурой плотности мазка на стенах, глубины фактур, разнообразия мазков и композиционной выразительности. Однако достигнуто точно узнаваецость стиля, правильные цветовые решения, динамика и общая эмоциональность.
Следующим шагом, я решила увеличить количество шагов для обучения до 2000 тысяч, по причине того, что данных/изображений для обучения машины у меня было мало, а при таком объеме модель плохо обучается на маленьком количестве шагов. И вот, что у меня получилось, по итогу:
Здесь я в сравнении поставила две работы: слева — 1000 шагов для обучения и справа — 2000 шагов для обучения. Изображение, которое было выполнено на более крупном количестве шагов, выглядит намного четче и разборчивее, видны отдельные мазки, которые не смешиваются в однородную массу, более явный контур, который позволяет лучше разглядеть силуэт и композиционно перспектива в картине справа правильнее, чем первоначальный результат, который выдала нейросеть.
Промты, которые я писала для генерации картин в стиле Ван Гога все были связаны с исконно русскими мотивами, например: «Зима. Деревенская изба.», «a traditional Russian wooden cottage izba in deep winter snow, smoke rising from chimney, dark pine trees behind, in the style of vangoghart, cold blues and whites, thick textured brushstrokes, twilight sky» «Рыбак на Волге», «a lone fisherman in a small wooden boat on the wide Volga river at sunset, reeds on the shore, in the style of vangoghart, warm oranges and deep blues, thick swirling water reflections» Часть идеи я придумала сама, часть мне помог сгенерировать gpt.




