Айвазовский: обучение генеративной модели на BRND

Увлечение искусством — важнейшая часть жизни интеллектуального человека. С возникновением нейросетей нередко поднимается вопрос возможности создания художественных уникальных работ с его помощью. Но может можно создавать изображения, которые будут основываться на известных авторах, при этом имея свою новизну, отличия?

Описание идеи

Работы Ивана Константина Айвазовского — исключительно эмоциональны и завораживающие, отличные друг от друга даже несмотря на то, что большинство из них — про море.

В проекте рассматривается возможность воссоздания авторского стиля художника при помощи генеративной нейросети.

Основная задача — обучить Stable Diffusion v1.5 воплощать картины в стиле оригинальных работ, сохраняя графику, цвета, детали и впечатления.

Также необходимо: сохранить целостность (цветовая гамма, эмоциональная композиция, акцент на море/корабли, фактура картины), добиться вариативности, создать серию из изображений в стиле Айвазовского.

Исходные изображения

Для обучения модели я использовала 50 изображений работ И. К. Айвазовского в формате 1:1 (обрезанных)

Исходный размер 2698x1516

Процесс работы

Для обучения модели использовались изображения из датасета, которые были приведены в единый формат 1:1. Далее на их базе создавался текстовый промт.

Среда разработки была настроена для работы через GPU и установлены библиотеки. Добавили LoRA-адаптеры в UNet.

В цикле обучения на каждом шагу модель учится предсказывать шум, добавленный к изображению, используя текстовое описание. Каждый промт соответствует отдельному изображению (50 шт).

В процессе обучения было выставлено 1500 шагов для достижения благоприятного результата.

Было получено значение Loss (число, показывающее значение ошибки модели), которое во время обучения достигло рекордного значения 0,00511, что дало улучшение в следующих показателях: узнаваемость стиля, детализация объектов, выраженную фактуру, свет и атмосферу, а также гиперреалистичные блики на некоторых изображениях. Уникальность генераций повысилась.

В конце обучения прописан скрипт сохранения текущей модели в отдельном файле для последующего использования его в генерации изображений.

При создании генераций каждой картины, ей присваевается уникальный seed-код, с возможностью воспроизведения этого же изображения во время последующих генераций при необходимости.

Исходный размер 1452x174

Исходный размер 1362x1244

Результат

В результате удалось получить 20 релевантных изображений, выполненных в стиле художника. Помимо цветовых решений, композиционных особенностей и учета основных объектов действия на картинах, модель даже старается подражать мазку Айвазовского, выделяя фактуру работ.

Заметны некоторые отличия от оригинала: изменено качество, мазок немного грубее, оттенки в основном темные, но несмотря на это с уверенностью можно сказать, что результат демонстрирует возможность воссоздания авторского стиля художника при помощи генеративной нейросети.

Результирующие изображения

Один запуск программы был рассчитан на генерацию 8 картинок на разные темы сюжетов: — деревянная галера, плывущая по волнам — библейская сцена — прибрежная крепость — кораблекрушение во время сильного шторма — одинокий парусник в спокойном море — скалистый берег с маяком — морской бой на рассвете — ночная гавань Визуальные различия в сюжетах видны четко: каждая картина отличается от другой, рассказывает свою историю.

Уникальные особенности фактуры были созданы с помощью переменной «negative_prompt», на которую опиралась нейросеть. Также была добавленна переменная «style_base», в которой собрана база того, как должны выглядеть изображения. Применение подобных переменных и уточнений в коде дали продуктивный результат.

Ссылка на ноутбук с кодом и обученную модель

Использованные ресурсы

— Google Colab — ChatGPT-5 (помощь в создании текстовых промтов для генерации) — Stable Diffusion v1.5 — LoRA — Diffusers (Hugging Face)