Обучение генеративной сети стилю игры Idol Academy на BRND

Концепция

Идея проекта заключается в обучении генеративной сети Stable Diffusion стилю визуальной новеллы Idol Academy, которую разрабатывает моя сестра. (ник takoye_cliche) Idol Аcademy — визуальная новелла, в которой герою необходимо проходить испытания и поддерживать высокий рейтинг, чтобы стать айдолом.

Исходный размер 1368x529

Персонажи игры

Перед обучением были поставлены задачи: — Доработка существующих персонажей — Разработка новых второстепенных персонажей — Рисование разных эмоций — Добавление доп. атрибутов (аксессуары и тд.)

Список инструментов:

— Stable Diffusion — Kaggle — Hugging Face

Процесс

Для начала я собрала датасет из 10 отрисованных спрайтов. Все персонажи в chibi версии, поэтому они отличаются миловидными, детскими чертами лица и тела. У них яркие цвета в одежде, в основном носят спортивную/школьную форму. Так как персонажи в разработке лайн эскизный. Все арты были подготовленны в квадратном формате 512×512

Датасет

Исходный размер 786x364

После загрузки датасета, чтобы обучить модель потребовалось выставить разрешение на 512, максимальный шаг на 500 и чекпоинт на 250. Время затраченное на обучение заняло ~ час.

Исходный размер 783x464

Фрагмент кода

Дальше нужно было загрузить модель на Hugging face, чтобы в дальнейшем ее можно было скачать и использовать

Исходный размер 784x143

Фрагмент кода

Чтобы оптимизировать процесс генераций, перед каждым промтом написан код, который очищает память

Исходный размер 789x155

Фрагмент кода

Первая генерация получилась эскизной и с трудно различимым полом героя. Поэтому, для улучшения результата было принято использовать более детальные промты с конкретным описанием образа персонажа

Исходный размер 1024x1024

prompt: photo collage in mindheroes style, a drawing of a girl with black hair and round glasses

Нейросеть научилась добавлять предметы и разные аксессуары в руки персонажам, хотя в датасете похожих примеров не было

prompt: photo in mindheroes style, a drawing of a girl with long wavy light blonde hair with soft bangs, green eyes, soft aesthetic, oversized cream sweater over school shirt, fluffy skirt, knee-high socks, loafers, holding a book, gentle smile, relaxed standing pose
prompt: photo in mindheroes style, a drawing of a boy holding a ball in his left hand, with short spiky red hair, blue eyes, sporty aesthetic
prompt: photo in mindheroes style, a drawing of a detective boy haging a magnifier with curly ginger hair, green eyes with freckles, vintage aesthetic, cardigan over white shirt, slightly loose trousers, boots, brown hat

Однако не всегда удачно

Исходный размер 1024x1024

prompt: photo in mindheroes style, a drawing of a boy with messy dark hair, dark gray eyes, white shirt with loosened tie, black trousers, sneakers, backpack slung over one shoulder

Из-за использования слова «collage» в промте модель часто изображала группу персонажей, вместо одного. Было решено поменять на «photo». Такая же ошибка возникала из-за слова «twin», так как по англ. прическа в два хвостика будет twin tails

prompt: photo in mindheroes style, girl with twin tails with dark purple hair, blue eyes, oversized hoodie, tennis skirt, high socks, sneakers
prompt: photo in mindheroes style, a drawing of a girl with dark bob haircut with straight bangs, bright yellow eyes, oversized yellow hoodie with purple accents, black pleated skirt, knee-high socks, chunky sneakers, anime-inspired patch on hoodie

Исходный размер 2048x1024

С помощью модели получилось менять положения рук, а также рисовать различные выражения лица (закрытые глаза, улыбка, раздражение, спокойствие, испуг)

Исходный размер 1219x1024

prompt: photo in mindheroes style, a drawing of a girl with arms crossed

Точность изображения поз зависела от того, насколько детально была прописана одежда в промте. Чем меньше слов про одежду, тем лучше модель генерировала остальные детали

Исходный размер 1024x1024

prompt: photo in mindheroes style, a drawing of a girl with closed eyes, short pastel pink bob with clips, coquette aesthetic

Также получилось более детально изобразить одежду и аксессуары персонажам

prompt: photo in mindheroes style, a drawing of a girl with short fluffy blonde bob with soft bangs and clips, tired expression, half-closed eyes, oversized green hoodie, rainbow striped crop top, black shorts, one thigh-high sock and one bare leg with bandage, black boots
prompt: photo in mindheroes style, a drawing of a girl with dark bob haircut with straight bangs, bright yellow eyes, oversized yellow hoodie with purple accents, black pleated skirt, knee-high socks, chunky sneakers, anime-inspired patch on hoodie

Исходный размер 1024x512

генерация vs исходный рисунок

Исходный размер 1025x515

исходный рисунок vs генерация

Исходный размер 1111x1111

promt: twin tails with dark purple hair, blue eyes, oversized hoodie, tennis skirt, high socks, sneakers

Модель хорошо попадала в эстетику описанную в промте. Получались разные стили одежды: гранжевые, готические, спортивные и тд.

prompt: photo in mindheroes style, a drawing of a girl with messy dark brown hair, gray eyes, grunge aesthetic, oversized school hoodie, loosened tie, black ripped trousers, sneakers, headphones around neck, slouched pose, tired expression
prompt: photo in mindheroes style, a drawing of a girl with medium dark purple hair with bangs, golden eyes, gothic aesthetic, oversized sweater over shirt, black pleated skirt, tights, platform boots, arms crossed, frightened expression
prompt: photo in mindheroes style, a drawing of a girl with closed eyes, short pastel pink bob with clips, coquette aesthetic, cardigan over blouse with ribbon, pleated skirt, thigh-high socks, platform shoes, hands together
prompt: photo in mindheroes style, a drawing of a boy holding a ball in his left hand, with short spiky red hair, blue eyes, sporty aesthetic

Исходный размер 2048x1024

Вывод

Таким образом, я считаю что получилось обучить Stable Diffusion рисовать в стиле игры Idol Academy. Нейросеть понимала общие характеристики рисовки и помогла в разработке множества новых и интересных персонажей. Также модель доработала некоторые существующие концепции, добавляла подходящие аксессуары. Несмотря на трудности с генерацией поз и эмоций, у модели через некоторое время получилось добиться нужного результата. К недостаткам можно отнести склонность модели к излишнему аниме стилю. Несмотря на это, такой опыт поможет в дальнейшей разработке игры

Блокнот с кодом

Модель на Hugging Face