Генерация игрушек Littlest Pet Shop на BRND

Описание идеи проекта

В этом проекте я решила обучить генеративную нейросеть на изображениях коллекционных игрушках Littlest Pet Shop. Хотелось увидеть, сможет ли модель уловить общий визуальный тип и стиль объекта, поскольку у игрушек в серии PetShop очень узнаваемый визуальных стиль.

Проект направлен на анализ того, как нейросеть считывает повторяющиеся черты игрушек, и как она воспроизводит ощущение милой игрушки, а также может ли нейросеть создать игрушку, которая бы вписалась в коллекционную серию.

Для обучения был собран датасет из 200 изображений игрушек из разных коллекций на белом фоне. На всех изображениях объект виден полностью и размещен по центру изображения.

ссылка на диск

Все изображения были взяты из открытого источника (https://lpsmerch.com/). Изображения игрушек из разных коллекций Littlest Pet Shop защищены лицензией CC-BY-NC.

Результирующая серия изображений

Комментарий к серии изображений

Итоговая серия состоит из сгенерированных изображений новых игрушек, созданных обученной моделью. Во всех изображениях сохраняются крупные глаза, компактная форма, декоративность, предметный характер подачи и узнаваемая милота образа.

Внутри серии есть различия по цвету, типу животного, деталям мордочки, форме ушей, пропорциям тела, пластике позы и степени условности образа. Некоторые варианты выглядят ближе к реально существующим игрушкам, а некоторые уже воспринимаются как новые гибридные существа, которых в исходном наборе не было.

Во многих генерациях видно, что нейросеть почти везде уверенно воспроизводит характерное соотношение большой головы и маленького тела, крупные глаза, маленький нос, округлые щёки и общее ощущение игрушечности. Также считывается предметный способ показа объекта.

Google Colab

Сначала были установлены необходимые зависимости, после чего был подключён Google Drive, где хранилась папка с исходными изображениями. Затем датасет был скопирован в рабочую директорию Colab, чтобы модель могла быстрее обращаться к файлам во время обучения. После этого был запущен скрипт обучения DreamBooth LoRA для Stable Diffusion XL.

На этапе запуска пришлось отдельно проверить, где именно лежат изображения, устранить лишнюю вложенность папок и подобрать корректные параметры запуска. Также по ходу работы пришлось исправить несколько технических проблем, например, убрать параметр xformers, который не поддерживался в текущем окружении, и перейти к более стабильной конфигурации обучения.

В итоге модель была обучена на 200 изображениях игрушечных животных. После завершения обучения в выходной папке появились веса LoRA и checkpoint-файлы, которые затем использовались для генерации итоговой серии изображений. Сам ноутбук с кодом прилагается к проекту как часть документации процесса.

Ссылка на блокнот с кодом

Использование нейросетей в создании проекта

В процессе работы над проектом использовались нейросети, во-первых, для генерации изображения обложки, а во-вторых, для помощи с устранением технических проблем.

Для обеих этих целей использовалась нейросеть ChatGPT.