Исходный размер 1140x1600

В ролях: Митюки

Проект принимает участие в конкурсе

Идея проекта

В центре проекта — мой кот Митюки, выступающий как персонаж с узнаваемыми чертами. С помощью дообучения модели Stable Diffusion (DreamBooth + LoRA) нейросеть обучается воспроизводить именно этого кота, фиксируя его визуальные особенности: форму мордочки, структуру шерсти, выражение «лица».

Далее Митюки помещается в различные сценарии — от повседневных до фантастических и абсурдных.

Исходные данные

Для обучения был собран датасет изображений кота: — 22 изображения — квадратный формат (1:1) — разные ракурсы, освещение и позы

0

Примеры исходные фотографий Митюки

Митюки в роли офисного работника

Исходный размер 1024x1024

Офисный работник

Исходный размер 4434x367

Блок кода с промптом к изображению

Митюки в роли божественного персонажа

Исходный размер 1803x178

Блок кода с промптом к изображению

Митюки в роли злодея

Исходный размер 1803x175

Блок кода с промптом к изображению

Исходный размер 1024x1024

Митюки в роли злодея

Исходный размер 1803x183

Блок кода с промптом к изображению

Исходный размер 1024x1024

Митюки в роли астронавта в космосе

Исходный размер 1792x179

Митюки в роли гигантского кота.

Исходный размер 1801x173

Блок кода с промптом к изображению

Исходный размер 1024x1024

Митюки в роли кота с картины Ван Гога

Исходный размер 1790x136

Блок кода с промптом к изображению.

Исходный размер 1024x1024

Митюки в роли персонажа картины в фэнтезийном лесу.

Митюки в роли эстетик кота на фоне цветов в сказочном лесу.

Исходный размер 1808x176
Исходный размер 1024x1024

Митюкин в роли эстетик кота на фоне цветов в сказочном лесу.

Исходный размер 1789x176
Исходный размер 1024x1024

Митюки в роли растерянного повара на кухне в состоянии полного хаоса.

Исходный размер 1805x181
Исходный размер 1024x1024

Митюкин в роли абсурдного кота-интеллектуала, который пытается читает книгу.

Этапы работы с кодом

В начале ноутбука производится импорт необходимых библиотек. В частности, используются следующие библиотеки: PyTorch, Diffusers, Transformers, Accelerate, Pillow, Matplotlib, а также стандартные модули для работы с файловой системой и данными.

Исходный размер 1796x104
Исходный размер 1796x172
Исходный размер 1796x335

Скачиваем официальный скрипт для обучения нейросети.

Исходный размер 1796x146
Исходный размер 1796x232

Создание папки local_dir = «./citi/»: имя папки, где будут лежать картинки для обучения. И далее загрузка файлов files.upload ().

Исходный размер 1796x352
Исходный размер 1796x578
Исходный размер 1796x474

Далее с помощью нейросети BLIP создаем систему автоматического описания картинок.

Исходный размер 1796x184
Исходный размер 1796x268
Исходный размер 1796x333

Сканируем папку с фотографиями и с помощью нейросети создаем для каждой из них текстовое описание, сохраняя готовый список в файл метаданных для будущего обучения.

Исходный размер 1802x193
Исходный размер 1796x184

Блок настраивает системную кодировку для корректной работы с текстом и создает базовую конфигурацию библиотеки Accelerate, чтобы обучение нейросети проходило быстрее и стабильнее на доступном оборудовании.

Исходный размер 1795x135
Исходный размер 1799x64

Выполняем вход в аккаунт Hugging Face для доступа к закрытым моделям и устанавливаем библиотеку datasets.

Обучение модели

Исходный размер 1793x553

Далее запускаем основной процесс обучения нейросети SDXL методом Dreambooth LoRA, используя загруженные фотографии.

Исходный размер 1794x102
Исходный размер 1796x190
Исходный размер 1794x615

Создаем страницу модели на Hugging Face, формируется для нее карточку с описанием параметров и загружаем все готовые файлы LoRA в облачный репозиторий.

Исходный размер 1794x615

И в конце прописываем код который подготавливает среду для генерации: загружает базовую модель Stable Diffusion XL, подключает к ней обученную LoRA.

В ролях: Митюки
Проект создан 24.03.2026
Загрузка...
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше