Переосмысление Отто: обучение генеративной модели на восточных пейзажах на BRND

Концепция

Отто Экманн — немецкий художник, график и дизайнер, чьё творчество связано с эстетикой ар-нуво. В его работах сочетаются плавные декоративные линии, орнаментальность и влияние японской гравюры.

Анализируя его стиль, можно заметить выраженные восточные мотивы: внимание к природным формам, ритмическим паттернам, а также особую композиционную лаконичность. Эти особенности стали отправной точкой для проекта.

В рамках работы была поставлена задача обучить генеративную модель воспроизводить визуальный язык, вдохновлённый стилем Отто Экманна, и применить его к сюжетам традиционных китайских и японских пейзажей.

Итоговая серия изображений представляет собой вариации на тему восточной природы и архитектуры, объединённые единым декоративным стилем.

Датасет

Для обучения модели был собран датасет изображений, отражающих характерные особенности выбранного визуального стиля. В него вошли изображения с выраженной линейной графикой, декоративными паттернами и природными мотивами.

Все изображения были приведены к квадратному формату (1:1) и использовались для формирования единого визуального представления стиля.

В проекте представлены отдельные примеры изображений, входящих в обучающую выборку.

Обучение модели

В проекте была использована модель Stable Diffusion XL (SDXL), дообученная с помощью метода DreamBooth в сочетании с LoRA (Low-Rank Adaptation). Обучение проводилось в среде Google Colab, что позволило использовать вычислительные ресурсы GPU.

В качестве обучающего датасета использовалась подборка изображений, объединённых авторским стилем «otto». Изображения были загружены в рабочую директорию и использованы для дообучения модели.

Ноутбук с кодом

Для автоматического создания описаний изображений применялась модель BLIP, после чего к каждому описанию добавлялся идентификатор концепта — «otto style». Это позволило модели связать визуальные особенности изображений с текстовым описанием.

Обучение проводилось с использованием параметров: разрешение изображений 512×512 пикселей, размер батча — 1, с применением gradient accumulation.

После завершения обучения модель использовалась для генерации изображений по текстовым запросам, содержащим указание на стиль «otto».

Тестовые генерации

На этапе проверки качества обучения были получены различные тестовые генерации. Некоторые из них демонстрируют успешную передачу стиля, в то время как другие показывают ограничения модели и неточности в деталях.

prompt: — rice fields cascading down emerald slopes, water channels weaving geometric patterns, farmers in conical hats, in otto style — rice fields in otto style

prompt: — cherry blossoms falling over in otto style

Исходный размер 600x600

prompt: — tranquil koi pond in spring water and lotus in otto style

prompt: — layered mountain ranges fading into mist, with hidden temples among patterned pine groves, in otto style

prompt: — a traditional Chinese temple in a forest of red maples in otto style

Исходный размер 600x600

prompt: — Yokohama Chinatown gate towers in otto style

prompt: — Harbor village at dawn with fishing nets patterned across drying racks in otto style

Итоговая серия

Исходный размер 600x600

Анализ

В результате генерации удалось добиться достаточно высокой консистентности стиля. Во всех изображениях прослеживаются характерные признаки: чёткая линейная графика, декоративность, использование повторяющихся орнаментов и стилизованных природных форм.

Особое внимание можно обратить на работу с природными элементами — водой, деревьями, горами. Они приобретают упрощённую, но ритмически организованную форму, что отсылает как к эстетике ар-нуво, так и к японской гравюре.

В разных сериях изображений варьируются сюжеты: рисовые поля, цветущая сакура, карпы кои, горные пейзажи, архитектура и традиционные постройки. Несмотря на разнообразие тем, стиль остаётся узнаваемым за счёт повторяющихся визуальных приёмов.

Нейросеть успешно перенесла декоративные качества исходного стиля на новые сцены, однако в некоторых случаях наблюдаются упрощения или неточности в деталях.

В целом результаты соответствуют поставленной задаче: модель смогла воспроизвести визуальный язык, вдохновлённый стилем Отто Экманна, и применить его к новым сюжетам.

Использование ИИ

В рамках проекта были использованы следующие инструменты искусственного интеллекта:

Stable Diffusion XL — для обучения и генерации изображений ChatGPT — для помощи в формулировке текстового описания и анализа результатов