Исходный размер 1140x1600

Обучение генеративной нейросети под творчество Утагава Хиросигэ

Проект принимает участие в конкурсе

Идея проекта

Проект направлен на обучение Stable Diffusion XL воспроизведению художественного стиля японской гравюры укиё-э Утагавы Хиросигэ. С использованием DreamBooth LoRA на малом датасете создаётся модель, способная переносить выученные характеристики в разнообразные сцены.

Исходные изображения

Для обучения я собрал датасет из 12 гравюр Утагавы Хиросигэ из цикла, найденных на сайте rawpixel (https://www.rawpixel.com). Все изображения имеют лицензию CC0. Примеры из датасета включают узнаваемые сцены: скелет и воины, группа кошек, и вид на горы.

Примеры

Исходный размер 548x806

Процесс обучения

Обучение проводилось методом DreamBooth в комбинации с LoRA на базе Stable Diffusion XL. Датасет из 12 гравюр был приведён к квадратному формату 512×512 пикселей. С помощью модели BLIP автоматически генерировались текстовые описания с добавлением префикса-триггера «ukiyo-e woodblock print in Utagawa Hiroshige style, Japanese landscape», которые сохранялись в metadata.jsonl.

Настройка обучения выполнялась скриптом train_dreambooth_lora_sdxl.py. Ключевые гиперпараметры: разрешение 512, размер батча 1, gradient accumulation steps 4, скорость обучения 1e-4, количество шагов 500. Использовались mixed precision (fp16), gradient checkpointing и 8-bit Adam, что позволило эффективно обучать модель на GPU T4 в течение 20 минут. Обучение затрагивало только LoRA-адаптеры, сохраняя базовые знания SDXL.

После обучения LoRA-веса сохранялись в формате safetensors. При генерации сила влияния стиля регулировалась параметром lora_scale (0.7). Для оценки способности модели к обобщению было сгенерировано 18 изображений с разнообразными промптами: классические сцены из цикла Хиросигэ и современные интерпретации городских пейзажей в эстетике укиё-э.

Результат

Использование Гении в проекте

Stable Diffusion XL — базовая модель для генерации изображений

DreamBooth + LoRA — обучение модели на гравюрах Хиросигэ

BLIP — автоматическая генерация подписей для изображений в датасете

DeepSeek — формулирование промптов, анализ результатов, написание экспликации

Обучение генеративной нейросети под творчество Утагава Хиросигэ
Проект создан 23.03.2026
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше