Чихуахуа 2.0 на BRND

КОНЦЕПЦИЯ

Обучение Stable Diffusion XL на изображениях чихуахуа с помощью DreamBooth и LoRA

Идея проекта — создать персонализированную модель, способную генерировать изображения конкретной собаки по текстовому описанию.

Я выбрала чихуахуа за её характерную внешность: большие уши, выразительные глаза, миниатюрный размер. Датасет состоит из 10 реальных фотографий одной собаки с оранжевым окрасом, взятых с фотостока Freepik (использование разрешено бесплатной лицензией).

Модель обучалась распознавать уникальный идентификатор «sks chihuahua» и генерировать новые образы с сохранением породных признаков.

ИСХОДНЫЕ ИЗОБРАЖЕНИЯ

В датасет вошли 10 фотографий, показывающих собаку в разных ракурсах.

Все изображения обрезаны до квадрата 1:1 и имеют разрешение 1000×1000 пикселей. Это обеспечивает хорошее качество обучения.

Исходный размер 3411x1364

КОД ОБУЧЕНИЯ (Google Colab)

Код основан на официальном примере Hugging Face для DreamBooth + LoRA на SDXL

Исходный размер 2880x1317

Использовался SDXL с LoRA (ранг 4), обучение заняло около 50 минут на T4. При генерации применялись 30 шагов инференса, guidance scale 7.5. Для улучшения качества можно было бы увеличить разрешение до 768, но в целях экономии памяти оставлено 512.

Папка с кодом

РЕЗУЛЬТАТИРУЮЩАЯ СЕРИЯ ИЗОБРАЖЕНИЙ

После обучения было сгенерировано 6 изображений с разными сценариями.

Модель успешно усвоила основные черты чихуахуа: оранжевый окрас, большие стоячие уши, тёмные глаза и компактный размер. На всех сгенерированных изображениях собака узнаваема, хотя позы и окружение меняются. Особенно хорошо удалась текстура шерсти и форма морды.

Собака на диване — сидит в уютной гостиной, поза расслабленная.

В парке с цветами — игривая поза среди зелени.

В шляпе — крошечная шляпка добавляет юмора.

С красным мячом — динамичная сцена игры.

В киберпанк-городе — неон, футуристический фон.

Крупный план — детализированный портрет, видна текстура шерсти.

Изображения варьируются от реалистичных (парк, диван) до стилизованных (киберпанк). В футуристической сцене собака органично вписана в окружение — модель сохранила консистентность даже при нестандартном фоне. Детали, такие как шляпа или мяч, добавляют индивидуальности. При увеличении можно заметить, что глаза и уши проработаны чётко.

Задача — научиться генерировать ту же собаку в разных контекстах — выполнена. Модель не смешивает черты с другими породами и не теряет уникальные признаки. Это позволяет использовать её для создания иллюстраций, персонажей или просто развлекательного контента.

ЗАКЛЮЧЕНИЕ

Проект продемонстрировал, что даже на небольшом датасете из 10 фото можно обучить модель генерировать узнаваемые изображения конкретного объекта. Метод DreamBooth + LoRA эффективен и экономичен. Полученная серия изображений может быть использована в портфолио, для создания уникального контента или как база для дальнейших экспериментов.