Идея
Обучить модель Stable Diffusion XL (SDXL) стилю 2D-иллюстратора Aeno VHVH: контрастные цвета (синий, желтый, розовый), детский милый дизайн с забавными сюжетами (пушистые зверушки, фантастические приключения, уютные сценки).
Тестируем, насколько нейросеть захватывает эту эстетику — от ярких градиентов до игривых деталей — и генерирует новые иллюстрации по промптам.

Было взято 11 собственных иллюстраций для датасета.
Обучение

Коллекция иллюстраций «Aeno VHVH» была загружена в Google Colab — все изображения соответствовали требованиям (формат PNG/JPEG, разрешение от 512 × 512 пикселей).
С помощью модели BLIP (Salesforce/blip-image-captioning-base) для каждой картинки сгенерировали короткую подпись из 2–3 предложений. В описаниях подчёркивали «милые» сюжеты (с персонажами или животными) и яркие цветовые контрасты. Так сформировали обучающий датасет с чётким соответствием изображений и текстов.

Изображения иллюстраций Aeno VHVH загрузили в Google Colab. Модель BLIP создала подписи для каждого, акцентируя милые сюжеты и яркие контрасты. Далее дообучили Stable Diffusion XL: DreamBooth для базового стиля, затем LoRA через скрипт Diffusers.
Параметры подогнали под Colab — низкий rank и epochs гарантировали стабильность без переобучения. Веса LoRA подключили к SDXL, enabling генерацию с триггером «in Aeno VHVH style».
Затем подключили обученные LoRA‑веса к базовой модели SDXL через метод pipe.load_lora_weights (). Масштаб влияния LoRA отрегулировали параметром lora_scale (0,6–0,8), чтобы сохранить баланс между яркостью стиля и стабильностью генерации.
В итоге получилась персонализированная модель на базе SDXL. Она генерирует новые иллюстрации по запросам с триггером in Aeno VHVH style, воспроизводя ключевые черты стиля — милые сюжеты, насыщенные цвета и узнаваемую атмосферу — и при этом создаёт оригинальные изображения, а не копирует исходники.
Далее стилизовали модель Stable Diffusion XL (stabilityai/stable-diffusion-xl-base-1.0) в два этапа:
Применили DreamBooth, чтобы адаптировать модель к стилю «Aeno VHVH». Для связи стиля с текстом использовали промпт‑идентификатор in Aeno VHVH style. Параметры настроили под Google Colab: небольшой размер батча и смешанную точность (fp16) для экономии памяти.
Выполнили тонкую настройку через LoRA (Low‑Rank Adaptation) с помощью скрипта train_dreambooth_lora_sdxl.py из библиотеки Diffusers. Чтобы избежать переобучения, выбрали низкий ранг матрицы адаптации (4) и малое число эпох (1–2). Для экономии ресурсов использовали 8‑bit Adam, градиентный чекпоинтинг и смешанную точность.
Однако итоговые изображения получились сумбурными: композиция и сюжет не всегда читаются чётко, элементы накладываются друг на друга, а нарратив размывается. При этом визуальная яркость превзошла ожидания — палитра вышла насыщенной и энергичной, с выразительными цветовыми контрастами. Таким образом, модель успешно передала эмоциональную составляющую стиля «Aeno VHVH», но пока не вполне справляется с выстраиванием структурированного сюжета в рамках композиции.
Итоговые генерации


«2D illustration in Aeno VHVH style, abstract park with oversized plants and tiny people»
«2D illustration in Aeno VHVH style, children riding surreal animals in colorful playground»


«2D illustration in Aeno VHVH style, whimsical fair with floating objects and bright decorations»
«2D illustration in Aeno VHVH style, dense scene with characters walking among giant flowers»


«2D illustration in Aeno VHVH style, fantasy garden with creatures and layered shapes»
«2D illustration in Aeno VHVH style, playful scene with kids and abstract attractions»


«2D illustration in Aeno VHVH style, surreal ride with animal-shaped cars and happy people»
«2D illustration in Aeno VHVH style, whimsical fair with floating objects and bright decorations»
Использование модели
Stable Diffusion XL (SDXL) — мощная модель для создания изображений из текста. https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
DreamBooth — подход к дообучению моделей на кастомных данных для фиксации стиля или объекта. https://huggingface.co/docs/diffusers/training/dreambooth
LoRA — эффективная техника тонкой настройки с минимальными ресурсами для стилизации генераций. https://huggingface.co/docs/diffusers/training/lora
Yandex AliceGPT — ассистент для кодирования, мозгового штурма и доработки промптов. https://alice.yandex.ru/chat/019cde45-b3d1-4000-b7cf-bb307b943426/




