Обучение нейросети Stable Diffusion для персонажей фестиваля «Чудокон» на BRND

идея проекта

В конце своего обучения я решила вспомнить корни и переработать иллюстрации со своего первого проекта. «Чудокон» — проект, которому я посвятила три модуля своего обучения. Все работы были посвящены созданию фестиваля, где люди могут познакомиться с различными милыми чудовищами.

Идея данного проекта — не только ностальгия по моим первым дням в школе дизайна, но и интерес к тому, насколько нейросеть сумеет расширить линейку персонажей моего бренда, скопировав мой стиль иллюстрации.

проекты, посвященные бренду

Список использованных в проекте инструментов:

Stable Diffusion — обучение генеративной нейросети под свой стиль Google Colab — выполнение кода и генераций Hugging Face — получение токена для обучения нейросети, загрузка полученной модели на сайт; Adobe Photoshop — оформление для портфолио Adobe Illustrator — создание персонажей DeepSeek — помощь с прописанием промтов

оригинальные изображения персонажей

Исходный размер 1240x631

В оригинальном проекте существовало 6 персонажей: вампир, ведьма, огр, циклоп, фея, эльф. Для обучения нейросети я пересобрала этих персонажей, рандомно совместив их яркие черты.

Исходный размер 1240x631

папка со всеми персонажами, включая новых

описание процесса обучения

Сначала мне потребовалось установить и загрузить все необходимые для работы библиотеки, такие как Diffusers, DreamBooth, а также вспомогательные инструменты для обучения модели.

Исходный размер 3508x1016

Далее нужно было загрузить изображения с локального компьютера в среду Google Colab. Это было сделано с помощью встроенной функции загрузки файлов. После этого я проверила содержимое папки, чтобы убедиться, что все изображения успешно загрузились.

Исходный размер 3508x1016

Далее я создала подписи (caption_prefix) к каждому изображению. Для этого использовалась модель автоматической генерации описаний, которая проанализировала изображения и сгенерировала текстовые подписи.

Нейросеть достаточно точно описала содержимое изображений. Это подтвердило, что данные корректно распознаются и подходят для дальнейшего обучения модели.

Исходный размер 3508x1016

С Hugging Face я получила код, чтобы сохранить модель и работать с ней дальше.

После этого начался процесс обучения модели. Параметры: разрешение изображений 512 пикселей, максимальное количество шагов обучения — 500, а сохранение промежуточной модели (checkpoint) — каждые 250 шагов. С такими настройки обучение заняло час.

Исходный размер 3508x1016

После обучения я сохранила результат в Hugging Face для дальнейших генерации новых изображений на основе обученного стиля.

Исходный размер 3508x724

первые попытки промта

неудачные попытки промта

Исходный размер 1024x1024

более удачный вариант

Промт был написан неправильно, так как я не включала слова, которыми модель распознала изображения ранее, писала слишком сложные промты. Из-за этого нейросеть ушла в сторону более случайных форм форм:

пример такого промта: a photo of TOK roja, minimal flat icon monster, round pastel green face, two eyes, no nose, small fangs instead of one tooth, no horns, long sharp ears on top of head, simple hair shapes on head, clean vector illustration, simple geometric shapes, no gradients, no shadows, centered on plain light lilac background/green background

исправленный промт

Исходный размер 1024x1024

добавила деталь нос, нейросеть нарисовала ее из фигуры рта

промт: a photo of TOK roja, green face, two eyes, black hair, nose, small mouth plain purple background

промты: a photo of TOK roja, green face, one big eye, round pastel green face, big mouth, one flang, long horns, plain purple background

a photo of TOK roja, green face, one big eye, round pastel green face, line mouth, long horns, plain purple backgroundи

Исходный размер 1024x1024

a photo of TOK roja, round green face, two eyes, small fangs, wings behind back, long sharp ears, one hand showing peace sign, plain light purple background

интересно, как промт сделал часть крыльев одним из вариантов ушей

промт: a photo of TOK roja, green face, two eyes, one mouth, ears, plain purple background

a photo of TOK roja, green face, two eyes, small fangs, ears, plain purple background

Исходный размер 1024x1024

промт: a photo of TOK roja, green face, two eyes, big mouth with fangs, avatar, plain purple background

выводы

Модель хорошо уловила цвета чудовищ (цвета бэкграунда нее были загружены в модель), простую форму и графику, изображений, отдельные детали персонажей.

Хотелось бы сказать, что нейросеть является прекрасным инструментом для отработки черновиков. Так как мой проект был завершен, я вряд ли буду использовать данные генерации в работе, но было интересно попробовать создать новых чудовищ, взглянуть на них по-новому.

ссылка на блокнот с кодом

ссылка на модель на Hugging Face