2D illustration in Aeno VHVH style на BRND

Идея

Обучить модель Stable Diffusion XL (SDXL) стилю 2D-иллюстратора Aeno VHVH: контрастные цвета (синий, желтый, розовый), детский милый дизайн с забавными сюжетами (пушистые зверушки, фантастические приключения, уютные сценки).

Тестируем, насколько нейросеть захватывает эту эстетику — от ярких градиентов до игривых деталей — и генерирует новые иллюстрации по промптам.

Исходный размер 3056x1022

Было взято 11 собственных иллюстраций для датасета.

Сам датасет

Обучение

Исходный размер 1797x589

Коллекция иллюстраций «Aeno VHVH» была загружена в Google Colab — все изображения соответствовали требованиям (формат PNG/JPEG, разрешение от 512 × 512 пикселей).

С помощью модели BLIP (Salesforce/blip-image-captioning-base) для каждой картинки сгенерировали короткую подпись из 2–3 предложений. В описаниях подчёркивали «милые» сюжеты (с персонажами или животными) и яркие цветовые контрасты. Так сформировали обучающий датасет с чётким соответствием изображений и текстов.

Исходный размер 1398x479

Изображения иллюстраций Aeno VHVH загрузили в Google Colab. Модель BLIP создала подписи для каждого, акцентируя милые сюжеты и яркие контрасты. Далее дообучили Stable Diffusion XL: DreamBooth для базового стиля, затем LoRA через скрипт Diffusers.

Параметры подогнали под Colab — низкий rank и epochs гарантировали стабильность без переобучения. Веса LoRA подключили к SDXL, enabling генерацию с триггером «in Aeno VHVH style».

Затем подключили обученные LoRA‑веса к базовой модели SDXL через метод pipe.load_lora_weights (). Масштаб влияния LoRA отрегулировали параметром lora_scale (0,6–0,8), чтобы сохранить баланс между яркостью стиля и стабильностью генерации.

В итоге получилась персонализированная модель на базе SDXL. Она генерирует новые иллюстрации по запросам с триггером in Aeno VHVH style, воспроизводя ключевые черты стиля — милые сюжеты, насыщенные цвета и узнаваемую атмосферу — и при этом создаёт оригинальные изображения, а не копирует исходники.

Исходный размер 2185x731

Далее стилизовали модель Stable Diffusion XL (stabilityai/stable-diffusion-xl-base-1.0) в два этапа:

Применили DreamBooth, чтобы адаптировать модель к стилю «Aeno VHVH». Для связи стиля с текстом использовали промпт‑идентификатор in Aeno VHVH style. Параметры настроили под Google Colab: небольшой размер батча и смешанную точность (fp16) для экономии памяти.

Выполнили тонкую настройку через LoRA (Low‑Rank Adaptation) с помощью скрипта train_dreambooth_lora_sdxl.py из библиотеки Diffusers. Чтобы избежать переобучения, выбрали низкий ранг матрицы адаптации (4) и малое число эпох (1–2). Для экономии ресурсов использовали 8‑bit Adam, градиентный чекпоинтинг и смешанную точность.

Исходный размер 864x559

Однако итоговые изображения получились сумбурными: композиция и сюжет не всегда читаются чётко, элементы накладываются друг на друга, а нарратив размывается. При этом визуальная яркость превзошла ожидания — палитра вышла насыщенной и энергичной, с выразительными цветовыми контрастами. Таким образом, модель успешно передала эмоциональную составляющую стиля «Aeno VHVH», но пока не вполне справляется с выстраиванием структурированного сюжета в рамках композиции.

Блокнот

Исходный размер 3535x239

Исходный размер 2602x1402

Итоговые генерации

Генерации

«2D illustration in Aeno VHVH style, abstract park with oversized plants and tiny people»

«2D illustration in Aeno VHVH style, children riding surreal animals in colorful playground»

«2D illustration in Aeno VHVH style, whimsical fair with floating objects and bright decorations»

«2D illustration in Aeno VHVH style, dense scene with characters walking among giant flowers»

«2D illustration in Aeno VHVH style, fantasy garden with creatures and layered shapes»

«2D illustration in Aeno VHVH style, playful scene with kids and abstract attractions»

«2D illustration in Aeno VHVH style, surreal ride with animal-shaped cars and happy people»

«2D illustration in Aeno VHVH style, whimsical fair with floating objects and bright decorations»

Использование модели

Stable Diffusion XL (SDXL) — мощная модель для создания изображений из текста. https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

DreamBooth — подход к дообучению моделей на кастомных данных для фиксации стиля или объекта. https://huggingface.co/docs/diffusers/training/dreambooth

LoRA — эффективная техника тонкой настройки с минимальными ресурсами для стилизации генераций. https://huggingface.co/docs/diffusers/training/lora

Yandex AliceGPT — ассистент для кодирования, мозгового штурма и доработки промптов. https://alice.yandex.ru/chat/019cde45-b3d1-4000-b7cf-bb307b943426/

Исходный размер 1107x286