Концепция проекта
Целью проекта стало исследование возможностей генеративной модели Stable Diffusion в воспроизведении моего художественного стиля (Delovarya).
Я обучила нейросеть на собственном наборе работ — чтобы посмотреть, какие изображения она сможет создать по текстовому запросу.
Для обучения LoRA‑модели я использовала подборку из 12 собственных работ — ситуативные и фигуративные композиции.
Процесс обучения ИИ
На первом этапе я загрузила базу данных своих изображений. С помощью модели BLIP я автоматически сгенерировала промпты для каждого изображения, завершая их единой фразой «Delovarya style» для чёткой фокусировки на моём авторском стиле.
Для повышения точности запросов я дополнительно использовала инструмент Perplexity, чтобы детализировать промпты и учесть нюансы моего стиля. Это позволило точнее передать особенности цветовой палитры, работы со светом и тенью, а также характерные композиционные решения, заметные в оригинальных работах.
Обучение модели Delovarya_LoRA выполнялось с помощью скрипта train_dreambooth_lora_sdxl.py через утилиту accelerate launch на базе модели Stable Diffusion XL. В процессе использовались оптимизированные параметры: разрешение 200 пикселей, 300 шагов обучения, скорость обучения 1e−4, смешанная точность и оптимизатор 8‑bit Adam.
В ходе обучения система анализировала данные и усваивала ключевые визуальные маркеры моего стиля — специфику линий, контрастность и цветовые сочетания. Благодаря настройкам --gradient_accumulation_steps=2 и сохранению контрольных точек каждые 150 шагов удалось добиться эффективного обучения даже на небольшом датасете.
После завершения обучения модель Delovarya_LoRA стала готова к генерации новых изображений по текстовым промптам. Она воспроизводит узнаваемые черты моего авторского стиля — манеру письма, цветовые решения и графическую выразительность — и адаптирует их к новым сюжетам.
На финальном этапе я подготовила карточку модели с метаданными через функцию save_model_card, указав базовую модель и параметры обучения. Затем я загрузила папку Delovarya_LoRA в репозиторий на Hugging Face Hub с помощью upload_folder, сделав обученную LoRA‑модель доступной для дальнейшего использования и экспериментов.
В процессе тестирования модель успешно воспроизвела цветовую палитру и атмосферу моих работ, но на изображениях появились артефакты: искажения пропорций, размытые линии, шумы и разрывы текстуры.
Эксперименты с параметром lora_scale показали: при значениях ниже 0.7 стиль становился неузнаваемым, а выше 0.9 — резко росло число артефактов.
Оптимальный вариант — lora_scale = 0.9: сохранились контрастность, палитра и графическая чёткость, а артефактов было немного. При этом в простых сценах (один объект на простом фоне) результаты лучше, чем в многофигурных композициях, где возникали проблемы с перспективой и взаимодействием элементов.
Итоги
Delovarya style, teenager lying on the floor of their room scrolling a phone while posters, snacks and cables are scattered everywhere
Delovarya style, tired office worker eating instant noodles at a messy desk while a tiny plant on the table looks happier than him
Delovarya style, person watering a houseplant that suddenly looks much bigger and happier than the owner
Delovarya style, student in a quiet library surrounded by huge stacks of books while secretly doodling little monsters in a notebook
Delovarya style, girl sitting in a laundromat late at night, watching clothes spin in the washing machine
Delovarya style, girl standing in a grocery store aisle staring at dozens of cereal boxes like it is an existential choice
Использование генеративной модели
Stable Diffusion XL (SDXL) — базовая генеративная модель (stabilityai/stable-diffusion-xl-base-1.0) — https://huggingface.co/stabilityai/stable‑diffusion‑xl‑base‑1.0;
LoRA (Low‑Rank Adaptation) — метод тонкой настройки модели для адаптации к моему стилю — https://huggingface.co/docs/diffusers/training/lora;
DreamBooth — технология персонализации модели под конкретный стиль (реализация в библиотеке Diffusers:) — https://huggingface.co/docs/diffusers/training/dreambooth;
BLIP — модель для автоматической генерации промптов на основе загруженных изображений (Salesforce/blip-image-captioning-base) — https://huggingface.co/Salesforce/blip‑image‑captioning‑base;
Perplexity — инструмент для создания подробных и точных промптов, помогающих передать нюансы моего стиля — https://www.perplexity.ai/.




