Цифровой двойник художника на BRND

1/ КОНЦЕПЦИЯ

Проект посвящён обучению генеративной нейросети Stable Diffusion XL моему собственному художественному стилю, который я называю «сюрреалистический метаморфоз».

В своих картинах я исследую темы трансформации, гибридности и абсурда: женские фигуры перетекают в животных, привычные предметы становятся частью сюрреалистических сцен, а реальность искажается через яркие цвета, контрастные тени и экспрессивную манеру письма.

Я выбрала этот стиль, потому что он наиболее полно отражает моё творческое видение. Обучив нейросеть на своих работах, я хотела проверить, способна ли она уловить не только внешние признаки (цветовую гамму, композиционные приёмы), но и внутреннюю логику моих образов — ту абсурдную поэтику, которая делает мои картины узнаваемыми. Кроме того, это эксперимент по созданию собственного «цифрового двойника» — инструмента, который может генерировать новые идеи в моей стилистике, расширяя границы моего творчества.

2/ ИСХОДНЫЕ ИЗОБРАЖЕНИЯ

Исходный размер 3626x2900

исходный архив из моих картин

Датасет состоит из 20 моих оригинальных работ и их фрагментов. Все изображения приведены к квадратному формату 512×512 пикселей.

3/ ПРОЦЕСС ОБУЧЕНИЯ

Исходный размер 2880x1581

Обучение проводилось в Google Colab на GPU T4 с использованием скрипта train_dreambooth_lora_sdxl.py из библиотеки diffusers.

Датасет: 20 собственных изображений в формате PNG (квадратные, обрезаны до 512×512). Все работы выполнены в моём уникальном стиле «сюрреалистический метаморфоз» — яркие цвета, гибридные формы, абсурдные сцены.

Подготовка данных: Каждое изображение автоматически подписано моделью BLIP с префиксом «in the style of мой-редактор». Подписи сохранены в файл metadata.jsonl. Это позволило модели связать визуальный стиль с текстовым идентификатором.

Метод обучения: Использован DreamBooth + LoRA на базе Stable Diffusion XL. LoRA позволяет дообучить модель эффективно, добавляя всего несколько мегабайт весов, что идеально подходит для ограниченных ресурсов Colab.

Ноутбук с кодом для обучения

Параметры обучения:

— Базовая модель: stabilityai/stable-diffusion-xl-base-1.0 — VAE: madebyollin/sdxl-vae-fp16-fix (для экономии памяти) — Разрешение: 512×512 — Размер батча: 1 — Накопление градиента: 2 шага — Скорость обучения: 1e-4 — Оптимизатор: 8-bit Adam (экономия памяти) — Смешанная точность: fp16 — Gradient checkpointing: включён — Количество шагов: 500 — Сохранение чекпоинтов каждые 250 шагов — Идентификатор стиля: мой-редактор

Обучение заняло около 45 минут на GPU T4. Потери стабильно снижались, что указывает на успешное усвоение стиля.

После обучения получены LoRA-веса, которые позволяют генерировать новые изображения в моём стиле по текстовым запросам. Сгенерировано 6 тестовых изображений, которые демонстрируют консистентность цветовой гаммы, композиционных приёмов и общей атмосферы.

4/ РЕЗУЛЬТАТ: СЕРИЯ ИЗОБРАЖЕНИЙ

Исходный размер 3072x2048

После обучения я сгенерировала серию из 6 изображений.

Промпты для генерации (все с префиксом in the style of MY_EDITOR):

«a woman with a cat holds a banana in her hand» — Женщина с кошкой держит банан. Получилась композиция с яркими оранжевыми и зелёными оттенками, фигура женщины частично прозрачна, будто сливается с фоном — характерный для меня приём.

«a woman in a cat’s body» — Женщина в теле кота. Нейросеть изобразила гибридное существо с женским лицом и кошачьим телом, лежащее на подушке. Цветовая гамма — тёплая, охристая.

«a woman lies at a man’s feet like a dead animal» — Женщина лежит у ног мужчины как мёртвое животное. Мрачная сцена с контрастным освещением, фигура женщины почти сливается с тенью, что перекликается с моими работами на тему уязвимости.

«The girl is reborn as a swan» — Девушка перерождается лебедем. Динамичная композиция: фигура в центре, руки превращаются в крылья, вокруг — абстрактные мазки. Удалось передать ощущение метаморфозы.

«men in the form of a pack of monkeys» — Мужчины в виде стаи обезьян. Группа приматов в человеческих позах, фон — джунгли в моей стилистике (размытые пятна зелени).

«The lion who eats grapes» — Лев, который ест виноград. Абсурдная сцена: лев сидит на задних лапах, передними держит гроздь винограда. Фактура шерсти и фруктов передана характерными для меня пастозными мазками.

Я ставила цель — научить нейросеть генерировать новые образы в моём стиле, а не копировать существующие работы. Полученная серия полностью соответствует этой задаче: сюжеты новые, но выполнены в узнаваемой манере.

Нейросеть хорошо усвоила мою цветовую гамму — преобладание тёплых охристых, оранжевых и контрастных сине-зелёных оттенков. Композиционные приёмы (асимметрия, частичное слияние фигур с фоном) также проявились в большинстве генераций. Атмосфера — абсурдная, сюрреалистическая, с налётом тревожности — сохранилась во всех шести изображениях.

Изображения отличаются по сюжету, но стилистически едины. Например, в первом и втором промпте используются мягкие пастельные тона, в третьем — более мрачная палитра, в пятом — активные зелёные пятна. Нейросеть варьирует плотность мазков, степень детализации и освещение в зависимости от промпта, что говорит о гибкости обучения.

5/ ИСПОЛЬЗОВАНИЕ GenAI

Помимо обучения нейросети, я применяла ChatGPT (OpenAI) для формулировки промптов на английском языке, чтобы они были лаконичными и корректными для модели.

6/ ВЫВОД

Что получилось:

— Нейросеть успешно обучилась моему стилю на относительно небольшом датасете (20 изображения). — Генерации демонстрируют консистентность цветовой гаммы и композиционных приёмов. — Удалось передать абсурдную, сюрреалистическую атмосферу, характерную для моих работ. — Интеграция с LoRA позволила дообучить модель быстро и без потери качества на других запросах.

Сложности:

— Подготовка датасета заняла много времени: нужно было привести все изображения к квадрату, очистить от шумов, проверить единообразие стиля. — Некоторые генерации теряли детализацию (например, текстура мазков становилась слишком гладкой) — возможно, из-за ограничений T4 и малого числа шагов. — Первые попытки с 250 шагами давали слабое сходство; пришлось увеличить до 500 и добавить больше фрагментов с фактурами.

Нейросеть стала моим «цифровым соавтором», способным генерировать новые идеи в моём стиле, что открывает интересные перспективы для дальнейшего творчества.