Серия московских локаций в стиле картин Ван Гога на BRND

Концепция

Идея проекта заключается в том, чтобы представить, как бы великий художник Винсент Ван Гог увидел современную Москву, если бы оказался в нашем времени. Я исследую, как его уникальный стиль — вихревые мазки, яркие контрастные (часто комплементарные) цвета, которые передают эмоциональный окрас, а не реализм, штрихи по форме объекта, гиперболизация и искажение форм, — мог бы преобразить знакомые городские пространства, архитектуру, технологии и атмосферу мегаполиса.

Исходный размер 588x700

Исходный размер 800x645

Исходный размер 800x631

Исходный размер 800x639

Мои генерации

В сгенерированных изображениях представлены: Собор Василия Блаженного, сцена в метро, стилизованная под 19 век, стеклянные небоскребы, выбивающиеся среди «сталинок», главная арка у входа ВДНХ, башни Кремля и Большой кремлевский дворец.

Исходный размер 1024x1024

Исходный размер 768x766

Исходный размер 767x767

Исходный размер 1024x1024

Во всей серии прослеживаются ключевые элементы стиля Ван Гога: Вихревое, динамичное небо и свет, создающие ощущение движения и внутреннего напряжения. Толстые, фактурные мазки, превращающие архитектуру и людей в живописную ткань. Яркая, контрастная палитра, усиливающая эмоциональное восприятие города. Смещение акцента с точной документальности на настроение и ощущение пространства.

Соответствие результатов первоначальной идее проекта

Итоговая серия изображений в целом хорошо отражает концепцию проекта — представить, как бы Винсент Ван Гог увидел современную Москву. Во всех работах прослеживаются ключевые элементы его художественного языка: вихревые мазки, яркая контрастная палитра, и динамичное небо.

При этом не полностью удалось добиться того размера мазков, которые есть в картинах автора. Из-за этого ощущается некая «замыленность» изображения, как после автоматической постобработки фото, снятых на мобильную камеру.

В некоторых изображениях заметно, что модель могла частично переобучиться. Это проявляется в смешении эпох и понятий: например, на сцене в метро персонажи одеты в одежду конца XIX — начала XX века, что не соответствует современному контексту. Такое поведение характерно для моделей, которые слишком сильно перенимают стиль и визуальные паттерны художника, иногда перенося их на объекты, где они не предполагаются. Однако эти отклонения не нарушают общую идею проекта. Напротив, они подчеркивают художественный характер эксперимента: Москва в серии изображений предстает не как точная копия реальности, а как эмоциональная интерпретация, в которой стиль Ван Гога доминирует над документальной точностью. В большинстве работ модель успешно передаёт атмосферу города, сохраняя узнаваемость локаций и одновременно насыщая их характерными чертами постимпрессионизма.

Детали генерации

1. Несколько попыток и подбор датасетов

Проект прошёл через три итерации обучения, каждая из которых использовала разные наборы данных. На ранних этапах в датасеты попадали изображения, выполненные в разных художественных стилях, что приводило к смешению импрессионизма с другими направлениями. Это снижало чистоту стиля и усложняло достижение характерной «вангоговской» манеры. Третья попытка стала наиболее успешной благодаря более точному отбору изображений и концентрации на одном художественном направлении.

2. Ошибки в генерации текстовых описаний

Автоматическая функция, создававшая текстовые подписи к изображениям, допускала значительное количество ошибок. В ряде случаев она не распознавала содержимое изображения или, наоборот, определяла его как известную картину Ван Гога и просто подставляла название оригинального произведения.

Исходный размер 1280x461

Такие подписи не давали полезной информации для обучения и могли вносить шум в модель. Поэтому пришлось вручную составлять промт для каждого изображения записать их в переменную data и записать это всё в metadata.jsonl

Исходный размер 1280x635

3. Локальный запуск модели

Из-за технических ограничений и проблем с доступом к облачным сервисам обучение и генерация проводились локально. Это означало отсутствие автоматической синхронизации с Hugging Face Hub и необходимость вручную управлять версиями модели, весами и промежуточными результатами. Такой подход усложняет процесс, но даёт полный контроль над экспериментами

4. Подбор подходящего чекпоинта

Одной из ключевых задач стало нахождение оптимального чекпоинта, который сохраняет баланс между узнаваемым стилем Ван Гога и современным контекстом московских локаций. Более поздние чекпоинты давали яркий стиль, но иногда приводили к переобучению — например, появлению одежды XIX века в сценах метро.

Исходный размер 765x766

Исходный размер 766x771

На первой картинке мы видим слабый стиль автора, но более современную машину.

На второй картинке — более выраженный стиль автора, но еще менее современная машина.

5. Подбор параметров для обучения

Для обучения модели использовалась конфигурация, ориентированная на сохранение структуры SDXL и одновременное внедрение стиля Ван Гога: в качестве основы был выбран stable-diffusion-xl-base-1.0 с исправленным VAE для корректной цветопередачи, а датасет подключался через колонку prompt с единым instance‑prompt «VINCENT VAN GOGH style», что помогало удерживать стилистическую целостность. Разрешение 512×512 обеспечивало баланс между качеством и скоростью, а небольшой batch size с градиентной аккумуляцией позволял обучать модель локально при ограниченных ресурсах. Для экономии видеопамяти применялись gradient checkpointing, fp16 и 8‑битный Adam. Постоянная скорость обучения 1e‑4 и отсутствие warmup делали процесс стабильным, а параметр SNR gamma усиливал передачу текстур на поздних этапах. Обучение длилось 1500 шагов, что стало компромиссом между насыщенностью стиля и риском переобучения, а промежуточные чекпоинты каждые 250 шагов позволяли отслеживать динамику и выбирать оптимальный вариант.Общее время обучения составило 2.2ч

Код проекта

Использование ГенИИ

Copilot

1)Распознавание изображения и генерация качественных промтов 2)Исправление неточностей в коде (например помог локально запустить модель лора)