идея проекта
В конце своего обучения я решила вспомнить корни и переработать иллюстрации со своего первого проекта. «Чудокон» — проект, которому я посвятила три модуля своего обучения. Все работы были посвящены созданию фестиваля, где люди могут познакомиться с различными милыми чудовищами.
Идея данного проекта — не только ностальгия по моим первым дням в школе дизайна, но и интерес к тому, насколько нейросеть сумеет расширить линейку персонажей моего бренда, скопировав мой стиль иллюстрации.
Список использованных в проекте инструментов:
Stable Diffusion — обучение генеративной нейросети под свой стиль Google Colab — выполнение кода и генераций Hugging Face — получение токена для обучения нейросети, загрузка полученной модели на сайт; Adobe Photoshop — оформление для портфолио Adobe Illustrator — создание персонажей DeepSeek — помощь с прописанием промтов
оригинальные изображения персонажей
В оригинальном проекте существовало 6 персонажей: вампир, ведьма, огр, циклоп, фея, эльф. Для обучения нейросети я пересобрала этих персонажей, рандомно совместив их яркие черты.
описание процесса обучения
Сначала мне потребовалось установить и загрузить все необходимые для работы библиотеки, такие как Diffusers, DreamBooth, а также вспомогательные инструменты для обучения модели.
Далее нужно было загрузить изображения с локального компьютера в среду Google Colab. Это было сделано с помощью встроенной функции загрузки файлов. После этого я проверила содержимое папки, чтобы убедиться, что все изображения успешно загрузились.
Далее я создала подписи (caption_prefix) к каждому изображению. Для этого использовалась модель автоматической генерации описаний, которая проанализировала изображения и сгенерировала текстовые подписи.
Нейросеть достаточно точно описала содержимое изображений. Это подтвердило, что данные корректно распознаются и подходят для дальнейшего обучения модели.
С Hugging Face я получила код, чтобы сохранить модель и работать с ней дальше.
После этого начался процесс обучения модели. Параметры: разрешение изображений 512 пикселей, максимальное количество шагов обучения — 500, а сохранение промежуточной модели (checkpoint) — каждые 250 шагов. С такими настройки обучение заняло час.
После обучения я сохранила результат в Hugging Face для дальнейших генерации новых изображений на основе обученного стиля.
первые попытки промта
неудачные попытки промта
более удачный вариант
Промт был написан неправильно, так как я не включала слова, которыми модель распознала изображения ранее, писала слишком сложные промты. Из-за этого нейросеть ушла в сторону более случайных форм форм:
пример такого промта: a photo of TOK roja, minimal flat icon monster, round pastel green face, two eyes, no nose, small fangs instead of one tooth, no horns, long sharp ears on top of head, simple hair shapes on head, clean vector illustration, simple geometric shapes, no gradients, no shadows, centered on plain light lilac background/green background
исправленный промт
добавила деталь нос, нейросеть нарисовала ее из фигуры рта
промт: a photo of TOK roja, green face, two eyes, black hair, nose, small mouth plain purple background
промты: a photo of TOK roja, green face, one big eye, round pastel green face, big mouth, one flang, long horns, plain purple background
a photo of TOK roja, green face, one big eye, round pastel green face, line mouth, long horns, plain purple backgroundи
a photo of TOK roja, round green face, two eyes, small fangs, wings behind back, long sharp ears, one hand showing peace sign, plain light purple background
интересно, как промт сделал часть крыльев одним из вариантов ушей
промт: a photo of TOK roja, green face, two eyes, one mouth, ears, plain purple background
a photo of TOK roja, green face, two eyes, small fangs, ears, plain purple background
промт: a photo of TOK roja, green face, two eyes, big mouth with fangs, avatar, plain purple background
выводы
Модель хорошо уловила цвета чудовищ (цвета бэкграунда нее были загружены в модель), простую форму и графику, изображений, отдельные детали персонажей.
Хотелось бы сказать, что нейросеть является прекрасным инструментом для отработки черновиков. Так как мой проект был завершен, я вряд ли буду использовать данные генерации в работе, но было интересно попробовать создать новых чудовищ, взглянуть на них по-новому.