КОНЦЕПЦИЯ
Обучение Stable Diffusion XL на изображениях чихуахуа с помощью DreamBooth и LoRA
Идея проекта — создать персонализированную модель, способную генерировать изображения конкретной собаки по текстовому описанию.
Я выбрала чихуахуа за её характерную внешность: большие уши, выразительные глаза, миниатюрный размер. Датасет состоит из 10 реальных фотографий одной собаки с оранжевым окрасом, взятых с фотостока Freepik (использование разрешено бесплатной лицензией).
Модель обучалась распознавать уникальный идентификатор «sks chihuahua» и генерировать новые образы с сохранением породных признаков.
ИСХОДНЫЕ ИЗОБРАЖЕНИЯ
В датасет вошли 10 фотографий, показывающих собаку в разных ракурсах.
Все изображения обрезаны до квадрата 1:1 и имеют разрешение 1000×1000 пикселей. Это обеспечивает хорошее качество обучения.
КОД ОБУЧЕНИЯ (Google Colab)
Код основан на официальном примере Hugging Face для DreamBooth + LoRA на SDXL
Использовался SDXL с LoRA (ранг 4), обучение заняло около 50 минут на T4. При генерации применялись 30 шагов инференса, guidance scale 7.5. Для улучшения качества можно было бы увеличить разрешение до 768, но в целях экономии памяти оставлено 512.
РЕЗУЛЬТАТИРУЮЩАЯ СЕРИЯ ИЗОБРАЖЕНИЙ
После обучения было сгенерировано 6 изображений с разными сценариями.
Модель успешно усвоила основные черты чихуахуа: оранжевый окрас, большие стоячие уши, тёмные глаза и компактный размер. На всех сгенерированных изображениях собака узнаваема, хотя позы и окружение меняются. Особенно хорошо удалась текстура шерсти и форма морды.
Собака на диване — сидит в уютной гостиной, поза расслабленная.
В парке с цветами — игривая поза среди зелени.
В шляпе — крошечная шляпка добавляет юмора.
С красным мячом — динамичная сцена игры.
В киберпанк-городе — неон, футуристический фон.
Крупный план — детализированный портрет, видна текстура шерсти.
Изображения варьируются от реалистичных (парк, диван) до стилизованных (киберпанк). В футуристической сцене собака органично вписана в окружение — модель сохранила консистентность даже при нестандартном фоне. Детали, такие как шляпа или мяч, добавляют индивидуальности. При увеличении можно заметить, что глаза и уши проработаны чётко.
Задача — научиться генерировать ту же собаку в разных контекстах — выполнена. Модель не смешивает черты с другими породами и не теряет уникальные признаки. Это позволяет использовать её для создания иллюстраций, персонажей или просто развлекательного контента.
ЗАКЛЮЧЕНИЕ
Проект продемонстрировал, что даже на небольшом датасете из 10 фото можно обучить модель генерировать узнаваемые изображения конкретного объекта. Метод DreamBooth + LoRA эффективен и экономичен. Полученная серия изображений может быть использована в портфолио, для создания уникального контента или как база для дальнейших экспериментов.