Обучение генеративной нейросети Stable Diffusio на BRND

ИДЕЯ ПРОЕКТА

Проект направлен на обучение Stable Diffusion XL по двум задачам: воспроизведению художественного стиля «акварельный городской скетчинг» и генерации уникального персонажа — спящего кота. С использованием DreamBooth LoRA на малых датасетах (10–12 изображений) создаются модели, способные переносить выученные характеристики в разнообразные сцены.

ИСХОДНЫЕ ИЗОБРАЖЕНИЯ

Для обучения я собрал датасет из 13 картин Хироаки Такахаши, которые нашёл на сайте rawpixel (https://www.rawpixel.com/search?page=1&path=1522.sub_topic-1161&sort=curated)

Все картины обладают лицензией СС0

Примеры из датасета

Исходный размер 1242x545

ПРОЦЕСС ОБУЧЕНИЯ

Процесс обучения нейросети проводился с использованием метода DreamBooth в комбинации с LoRA (Low-Rank Adaptation) на базе предобученной модели Stable Diffusion XL. На первом этапе подготавливался датасет из 10–12 изображений для каждого сценария: для стиля использовались акварельные городские скетчи, для персонажа — фотографии спящего кота в разных позах. Все изображения приводились к квадратному формату 512×512 пикселей и загружались в Google Colab, после чего с помощью модели BLIP автоматически генерировались текстовые описания с добавлением единого префикса-триггера («urban watercolor sketch style» для стиля и «sleepy cat» для персонажа), которые сохранялись в файл metadata.jsonl.

На втором этапе настраивались параметры обучения с использованием специализированного скрипта train_dreambooth_lora_sdxl.py. Ключевые гиперпараметры включали разрешение 512 пикселей, размер батча 2, gradient accumulation steps 3, скорость обучения 1e-4 и общее количество шагов 500. Для оптимизации использования памяти GPU применялись mixed precision (fp16), gradient checkpointing и 8-bit Adam оптимизатор, что позволило эффективно обучать модель на бесплатном GPU T4 в течение 15–20 минут. Обучение затрагивало только LoRA-адаптеры — небольшое количество дополнительных весов, что обеспечило сохранение исходных знаний базовой модели SDXL при добавлении новых визуальных характеристик.

На завершающем этапе обученные LoRA-веса сохранялись в формате safetensors. При генерации изображений веса загружались в базовую модель, а сила влияния обученного стиля или персонажа регулировалась параметром lora_scale (0.8 для стиля, 0.9 для персонажа). Для каждого сценария генерировалось по 8 изображений с разнообразными промптами, что позволило оценить способность модели к обобщению и сохранению ключевых визуальных признаков при переносе в различные контексты и сцены.

РЕЗУЛЬТАТ

Исходный размер 1024x512

ИСПОЛЬЗОВАНИЕ ГЕНИИ В ПРОЕКТЕ

В проекте использовались следующие генеративные модел:

Модель Stable Diffusion — для генерации изображений DreamBooth + LoRA — обучение модели на персональных фото BLIP — Автоматическая генерация подписей (captioning) для изображений в датасете Recraft — создание обложки проекта

КОД