Введение
Винсент Ван Гог — художник, чей стиль невозможно спутать ни с каким другим. Его экспрессивные, почти скульптурные мазки, вихревые текстуры и эмоциональная, насыщенная цветовая палитра создают уникальное визуальное переживание. Глядя на его работы, мы не просто видим пейзаж или портрет — мы чувствуем состояние художника, его внутренний мир, переданный через фактуру краски и динамику линий.
Меня всегда завораживала эта способность Ван Гога превращать реальность в экспрессию. Его кипарисы, изгибающиеся как языки пламени, небо, пульсирующее кругами, поля, словно дышащие под ветром — всё это создает ощущение, что мир вокруг нас живой, дышащий, находящийся в постоянном движении.
Примеры картин, используемых для обучения: 1."Starry Night» 2. «The Bedroom» 3. «The Iris» 4. «The Garden of Saint-Paul Hospital» 5. «The Pieta after Delacroix» 6. «Tree Trunks with Ivy»
Цель проекта
Научить генеративную нейросеть воспроизводить этот уникальный стиль, чтобы создавать новые изображения, сохраняющие фирменные черты Ван Гога: характерную фактуру мазка, вихревые текстуры, эмоциональную цветовую палитру и особую экспрессию.
Основная гипотеза заключалась в том, что Stable Diffusion XL, дообученная с помощью техники DreamBooth и LoRA на качественном датасете картин художника, сможет не просто копировать отдельные элементы, а уловить и воспроизвести эту сложную, эмоциональную эстетику. Технология DreamBooth позволяет научить модель новому понятию (в данном случае — стилю Ван Гога) используя всего несколько примеров, благодаря механизму prior preservation loss, который защищает модель от «забывания» того, что она уже знает о мире.
Датасет для обучения
Для обучения я собрала 41 картину Ван Гога, написанную им в период 1889–1890 гг. в Сен-Реми-де-Прованс. В это время художник находился в лечебнице для душевнобольных, где создал такие знаменитые шедевры, как «Ирисы», «Звездная ночь» и другие. Этот период считается вершиной его творчества — именно здесь сформировался его уникальный экспрессивный стиль, характеризующийся динамичными мазками и эмоциональной цветовой гаммой.
Для датасета я собрала разные жанры: натюрморты, портреты, пейзажи и интерьеры. Выбирались работы с наиболее ярко выраженными чертами художника — характерной фактурой мазка, текстурностью и насыщенной цветовой палитрой, чтобы модель могла уловить не просто сюжеты, а саму манеру письма Ван Гога.
Важным этапом подготовки стала генерация текстовых описаний (промптов) для каждого изображения с помощью модели BLIP. Это позволило создать подписи, связывающие визуальный контент с текстом — ключевое условие для успешного DreamBooth-обучения
Установка и настройка BLIP для автоматического описания изображений
Процесс обучения
Процесс обучения проходил в среде Google Colab с использованием GPU T4.
После установки нужных библиотек, был написан код для загрузки изображений в папку ./VanGogh/. Затем модель BLIP сгенерировала для них текстовые описания, к которым был добавлен префикс «painting in Van Gogh style». Все подписи были сохранены в файл metadata.jsonl, связывающий имена файлов с промптами.
1. Создание папки для датасета Ван Гога 2. Загрузка изображений
1. Функция для генерации описаний и предпросмотр изображений 2. Генерация подписей и создание metadata.jsonl
Запуск обучения
После завершения обучения веса LoRA были сохранены локально в папке vangogh_style_LoRA и загружены на Hugging Face Hub для удобного доступа и инференса.
Результат
painting in Van Gogh style of a modern city with tall buildings, highly detailed, creative interpretation
painting in Van Gogh style of a futuristic landscape with robots and technology, imaginative
painting in Van Gogh style of an underwater scene with fish and coral, artistic
painting in Van Gogh style of a busy marketplace in Morocco, inspired by Van Gogh’s palette
painting in Van Gogh style of a forest at dawn, loose brushstrokes, creative composition
Модель успешно усвоила ключевые элементы стиля Ван Гога. На всех сгенерированных изображениях видна характерная фактура мазка — они негладкие, текстурные, «живые». Это особенно заметно в небе и фонах. Также она хорошо воспроизводит эмоциональную, насыщенную палитру Ван Гога — контрастные синие и желтые тона, глубокие зеленые и охристые оттенки. Даже на новых сюжетах цвета «звучат» по-ван-гоговски. Модель уловила динамику пейзажей художника — изогнутые линии кипарисов, пульсирующее небо, экспрессивные облака. Композиции не статичны, они «дышат». Получившиеся изображения получились вариативными, при этом сохранив общий визуальный стиль.
Описание применения генеративной модели (ГенИИ)
Stable Diffusion XL — базовая модель для генерации изображений. BLIP — генерация текстовых описаний для обучающих изображений. LoRA — техника эффективной дообучения модели на новом стиле. DreamBooth — метод обучения, позволяющий внедрить новое понятие в модель с сохранением prior preservation loss Google Gemini — помогал в исправлении ошибок кода
Источник изображений для датасета
Изображения были взяты с сайта — http://vangogh-vincent.ru/saint-remy.html
Работы Ван Гога находятся в общественном достоянии (Public Domain).




