Исходный размер 1140x1600

Миса | Обучение генеративной нейросети

Проект принимает участие в конкурсе

Идея проекта

Целью проекта было обучить генеративную нейросеть Stable Diffusion рисовать кошки Мисы.

Миса — шотландская прямоухая кошка. Обладает круглыми жёлтыми глазами и мраморным серым окрасом.

Примеры исходных изображений

Исходный размер 1240x300

Процесс обучения

Я взяла исходный код, предоставленный в здании, и адаптировала его под свои задачи.

Первая попытка генерации оказалась неудачной: нейросеть правильно воссоздала узнаваемость Мисы, но получился сырой результат: поза и композиция не считывались, что говорило о том, что модель недоучена.

0

prompt: «a photo of TOK cat Misa in a bucket at the beach»

Затем я переработала исходный датасет с фотографиями Мисы и повторно обучила нейросеть. Однако мои усилия ограничивались возможностями Google Colab, который не позволял проводить обучение на больших шагах.

Исходный размер 1061x187

Результат улучшился: форма мордочки стала более стабильной, глаза и окрас легко распознаются. Однако выражение морды всё ещё казалось странным, как будто модель была недостаточно обучена из-за лимитов памяти Google Colab.

prompt: «a photo of TOK cat Misa»

Итоговые изображения

Исходный размер 920x300

prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes a photo of TOK cat Misa, wearing a wizard hat, sitting in a magical forest, glowing particles, cinematic lighting»

prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes holding a small cup of coffee, cozy morning»

Исходный размер 920x300

prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes with sunglasses, cool cat, summer vibe»

prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes with a laptop, programmer cat, coding»

Исходный размер 920x300

prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes in a cyberpunk city, neon lights»

prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes playing with yarn ball, dynamic motion»

Исходный размер 920x300

prompt: «… wearing a tiny wizard hat, magical atmosphere, glowing particles /… in a chef hat, in a kitchen, surrounded by food /… wearing a crown, royal cat, sitting on a throne»

prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes in a medieval castle»

Вывод

Исходный размер 920x300

prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes in a Japanese garden, cherry blossoms»

Нейросеть научилась передавать некоторые черты внешности Мисы, но не смогла достичь идеального сходства с оригиналом. Она до сих пор не до конца понимает строение тела кошки, а также периодически искажает её морду.

В конечном итоге я довольна результатом, получившимся в условиях ограниченных ресурсов для обучения модели и генерации изображений. Миса получается очень забавной и фотогеничной!

Исходный размер 920x300
Миса | Обучение генеративной нейросети
Проект создан 23.03.2026
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше