Обучение генеративной нейросети под свой стиль на BRND

Идея проекта

Главной моей задачей в данном проекте было обучить нейросеть конкретному стилю (своему или же кого-то из своих друзей). В качестве основы и дата сета я использовала кадры и концепт-арты к моим проектам с 1-3 курса.

Сам стиль, как мне кажется, достаточно простой: в нем нет большого количества деталей, представленные персонажи в основном имеют один типаж внешности. Однако при этом я думаю, что несмотря на легкость для живого человека и художника, ИИ с данным стилем было работать намного сложнее, так что я устроила для нейросети своего рода «испытание»: как можно ближе приблизиться к стилистике, не являющейся аниме или реализмом\семи-реализмом, которые чаще всего он генерирует достаточно быстро и без ошибок.

Исходные изображения из дата сета

Исходный размер 2480x2480

Процесс обучения

Для обучения нейросети был собран небольшой дата сет на гугл диске с моими работами, 20 скетчей и полноценных работ. В дальнейшем я прописала для каждого из изображений промпт — короткое описание того что находится на каждом из скетчей\артов.

Далее, для написания кода и самого процесса обучения были использованы: ◉ Google colab — в нем происходил весь основной процесс: от написания самого кода до генерации изображений; ◉ DreamBooth LoRA на базе Stable Diffusion XL — нейросеть для генерации изображений; Также дополнительно были скачены: ◉ Diffusers — библиотека от Hugging Face для работы с нейросетями генерации изображений ◉ Gdown — программа для скачивания файлов с Google Drive

Все изображения в собранной гугл папке были приведены к одному формату и размеру — квадратная картинка с размером сторон 2480px на 2480px. В блокноте отдельно к каждому из изображений я прописала промпт с описанием (к примеру: «in the style of elyabina, portrait of a girl with books, short hairstyle and headband»), где elyabina являлось стилевым маркером и прописывалось в каждом промпте, в том числе для генерации уже новых изображений.

Когда были загружены все библиотеки, дополнительные утилиты и сам дата сет с гугл диска, я приступила к самому процессу обучения, используя в основе модель Stable Diffusion XL. Все описания картинок из него были сохранены в файле metadata.jsonl, который был создан уже в процессе работы и сохранен в проекте.

Исходный размер 945x224

Начальный этап, подготовка к работе

Исходный размер 1771x810

Начало работы: здесь отображена загрузка и подготовка к работе гугл диска, создание файла с промптами к изображениям для обучения нейронки.

Исходный размер 584x509

Блок обучения

Итоговый набор изображений

После проделанного процесса обучения, я начала попытки генерации изображений. Полагаю, что из-за маленького набора изображений-исходников, большинство из изображений оказались далеки от идеала. Даже несмотря на запросы о «портрете» кого-либо, сгенерированные картинки часто создавались максимально искаженными и слабо похожими на необходимую стилистику.

Однако среди них были и неплохие, наиболее приближенные к нужному картинки.

Исходный размер 768x768

Первые попытки генерации изображений

Из 9 первых изображений, приемлемыми и, кажется, наиболее близкими к тому стилю, к которому я стремилась были только 2-3 картинки.

Исходный размер 768x255

Еще несколько примеров первых генераций

Исходный размер 1536x508

К сожалению, по моему мнению обучаемая нейросеть не справилась с представленным ей стилем, что связано с тем что дата сет был недостаточно большим (но это были наиболее яркие примеры стилистики) а также с тем что он был нестандартным, имел некоторые детали которые сложно повторить и считать генеративной нейросети.

Яндекс диск с блокнотом и дата сетом

◉В процессе работы над проектом использовались генеративные нейросети:

Stable Diffusion XL с дообучением через DreamBooth LoRA

◉Для проверки кода и помощи с решением ошибок\подбором утилит в случае возникновения проблем с загрузкой дата сета использовался: DeepSeek https://chat.deepseek.com/

◉ Также для улучшения качества сгенерированных изображений использовались нейросети увеличивающие разрешение картинок. Несколько из них: https://picsart.com/ai-image-enhancer/ https://www.fotor.com/ai-image-extender/?ysclid=mn4kc4ga8w493190089