Обучение Stable Diffusion для генерации концепт артов на BRND

Идея

Для финального проекта я решил взять свои старые концепт арты и дополнить коллекцию персонажей с помощью генерации и проверить насколько хорошо ИИ справится с этой задачей.

Датасет

Результаты генерации и комментарий к ним

В итоговых изображениях видно довольно много сходств с датасетом. ИИ практически полностью пытался повторить некоторые решения. Допустим при создании пиратов он зачастую опирался на мое изображение пирата с флагом.

photo collage in CON style, monkey captain pirate photo collage in CON style, The skeleton is a dead pirate

На этих генерациях видно как ИИ копирует позу немного ее видоизменяя. При этом он неплохо справляется с генерацией одежды. Каждый образ получается довольно уникальным учитывая малое количество изображений в датасете (11 штук).

У ИИ есть определенная проблема с анатомией и генерацией лиц людей, каждое лицо либо перекошено либо вообще превращается в месиво.

photo collage in CON style, woman, brown hair photo collage in CON style, Pirate crew, the ship is behind

Но он довольно хорошо справляется с животными или мифическими существами. Есть небольшие проблемы с анатомией конечностей но в целом генерация достаточно хорошо изобразила персонажей

photo collage in CON style, A parrot flies with ornaments in its paws photo collage in CON style, fat toad mutant

Очень хорошо ИИ справился с генерацией мифических и антропоморфных существ.

photo collage in CON style, skinny red pirate demon photo collage in CON style, fat ugly water demon

photo collage in CON style, monkeys pirate crew

На этих генерациях меньше всего дефектов, лучшая анатомия и есть некоторые интересные решения, например рука в виде щупальца у красного демона.

photo collage in CON style, shark man strong, with weapon

Процесс генерации

Я использовал предоставленный код.

Импортировал библиотеки, загрузил датасет, загрузил токен Hugging Face, прописал свой токен, запустил обучение, и генерировал изображения простыми промптами без детальных описаний. Все что я изменил это поменял accelerator на GPT t4×2. И добавил строчку кода которая сохраняет результат генерации в папку.

Обучение заняло 3 часа. Датасет состоял из 11 моих концептов персонажей.

Ноутбук

Вывод

Я считаю что нейросеть достаточно хорошо справилась с генерацией и пониманием того что я от нее хотел. Есть анатомические косяки, есть проблемы с позами (из-за недостатка примеров в датасете). Но сам стиль изображений, как падает контурный свет, формы, силуэты ИИ сделал достаточно хорошо.

Особенно меня удивило так как хорошо он справлялся с созданием мифических и антропоморфных существ. В этом случае даже не было серьезных проблем с изображением лиц и в целом анатомии.

Концепты получились достаточно хорошими.