Концепция
Идея проекта заключается в обучении генеративной сети Stable Diffusion стилю визуальной новеллы Idol Academy, которую разрабатывает моя сестра. (ник takoye_cliche) Idol Аcademy — визуальная новелла, в которой герою необходимо проходить испытания и поддерживать высокий рейтинг, чтобы стать айдолом.
Персонажи игры
Перед обучением были поставлены задачи: — Доработка существующих персонажей — Разработка новых второстепенных персонажей — Рисование разных эмоций — Добавление доп. атрибутов (аксессуары и тд.)
Список инструментов:
— Stable Diffusion — Kaggle — Hugging Face
Процесс
Для начала я собрала датасет из 10 отрисованных спрайтов. Все персонажи в chibi версии, поэтому они отличаются миловидными, детскими чертами лица и тела. У них яркие цвета в одежде, в основном носят спортивную/школьную форму. Так как персонажи в разработке лайн эскизный. Все арты были подготовленны в квадратном формате 512×512
После загрузки датасета, чтобы обучить модель потребовалось выставить разрешение на 512, максимальный шаг на 500 и чекпоинт на 250. Время затраченное на обучение заняло ~ час.
Фрагмент кода
Дальше нужно было загрузить модель на Hugging face, чтобы в дальнейшем ее можно было скачать и использовать
Фрагмент кода
Чтобы оптимизировать процесс генераций, перед каждым промтом написан код, который очищает память
Фрагмент кода
Первая генерация получилась эскизной и с трудно различимым полом героя. Поэтому, для улучшения результата было принято использовать более детальные промты с конкретным описанием образа персонажа
prompt: photo collage in mindheroes style, a drawing of a girl with black hair and round glasses
Нейросеть научилась добавлять предметы и разные аксессуары в руки персонажам, хотя в датасете похожих примеров не было
- prompt: photo in mindheroes style, a drawing of a girl with long wavy light blonde hair with soft bangs, green eyes, soft aesthetic, oversized cream sweater over school shirt, fluffy skirt, knee-high socks, loafers, holding a book, gentle smile, relaxed standing pose
- prompt: photo in mindheroes style, a drawing of a boy holding a ball in his left hand, with short spiky red hair, blue eyes, sporty aesthetic
- prompt: photo in mindheroes style, a drawing of a detective boy haging a magnifier with curly ginger hair, green eyes with freckles, vintage aesthetic, cardigan over white shirt, slightly loose trousers, boots, brown hat
Однако не всегда удачно
prompt: photo in mindheroes style, a drawing of a boy with messy dark hair, dark gray eyes, white shirt with loosened tie, black trousers, sneakers, backpack slung over one shoulder
Из-за использования слова «collage» в промте модель часто изображала группу персонажей, вместо одного. Было решено поменять на «photo». Такая же ошибка возникала из-за слова «twin», так как по англ. прическа в два хвостика будет twin tails
- prompt: photo in mindheroes style, girl with twin tails with dark purple hair, blue eyes, oversized hoodie, tennis skirt, high socks, sneakers
- prompt: photo in mindheroes style, a drawing of a girl with dark bob haircut with straight bangs, bright yellow eyes, oversized yellow hoodie with purple accents, black pleated skirt, knee-high socks, chunky sneakers, anime-inspired patch on hoodie
С помощью модели получилось менять положения рук, а также рисовать различные выражения лица (закрытые глаза, улыбка, раздражение, спокойствие, испуг)
prompt: photo in mindheroes style, a drawing of a girl with arms crossed
Точность изображения поз зависела от того, насколько детально была прописана одежда в промте. Чем меньше слов про одежду, тем лучше модель генерировала остальные детали
prompt: photo in mindheroes style, a drawing of a girl with closed eyes, short pastel pink bob with clips, coquette aesthetic
Также получилось более детально изобразить одежду и аксессуары персонажам
prompt: photo in mindheroes style, a drawing of a girl with short fluffy blonde bob with soft bangs and clips, tired expression, half-closed eyes, oversized green hoodie, rainbow striped crop top, black shorts, one thigh-high sock and one bare leg with bandage, black boots
prompt: photo in mindheroes style, a drawing of a girl with dark bob haircut with straight bangs, bright yellow eyes, oversized yellow hoodie with purple accents, black pleated skirt, knee-high socks, chunky sneakers, anime-inspired patch on hoodie
генерация vs исходный рисунок
исходный рисунок vs генерация
promt: twin tails with dark purple hair, blue eyes, oversized hoodie, tennis skirt, high socks, sneakers
Модель хорошо попадала в эстетику описанную в промте. Получались разные стили одежды: гранжевые, готические, спортивные и тд.
- prompt: photo in mindheroes style, a drawing of a girl with messy dark brown hair, gray eyes, grunge aesthetic, oversized school hoodie, loosened tie, black ripped trousers, sneakers, headphones around neck, slouched pose, tired expression
- prompt: photo in mindheroes style, a drawing of a girl with medium dark purple hair with bangs, golden eyes, gothic aesthetic, oversized sweater over shirt, black pleated skirt, tights, platform boots, arms crossed, frightened expression
- prompt: photo in mindheroes style, a drawing of a girl with closed eyes, short pastel pink bob with clips, coquette aesthetic, cardigan over blouse with ribbon, pleated skirt, thigh-high socks, platform shoes, hands together
- prompt: photo in mindheroes style, a drawing of a boy holding a ball in his left hand, with short spiky red hair, blue eyes, sporty aesthetic
Вывод
Таким образом, я считаю что получилось обучить Stable Diffusion рисовать в стиле игры Idol Academy. Нейросеть понимала общие характеристики рисовки и помогла в разработке множества новых и интересных персонажей. Также модель доработала некоторые существующие концепции, добавляла подходящие аксессуары. Несмотря на трудности с генерацией поз и эмоций, у модели через некоторое время получилось добиться нужного результата. К недостаткам можно отнести склонность модели к излишнему аниме стилю. Несмотря на это, такой опыт поможет в дальнейшей разработке игры




