Описание идеи проекта
В этом проекте я решила обучить генеративную нейросеть на изображениях коллекционных игрушках Littlest Pet Shop. Хотелось увидеть, сможет ли модель уловить общий визуальный тип и стиль объекта, поскольку у игрушек в серии PetShop очень узнаваемый визуальных стиль.
Проект направлен на анализ того, как нейросеть считывает повторяющиеся черты игрушек, и как она воспроизводит ощущение милой игрушки, а также может ли нейросеть создать игрушку, которая бы вписалась в коллекционную серию.
Для обучения был собран датасет из 200 изображений игрушек из разных коллекций на белом фоне. На всех изображениях объект виден полностью и размещен по центру изображения.

Все изображения были взяты из открытого источника (https://lpsmerch.com/). Изображения игрушек из разных коллекций Littlest Pet Shop защищены лицензией CC-BY-NC.
Результирующая серия изображений






Комментарий к серии изображений
Итоговая серия состоит из сгенерированных изображений новых игрушек, созданных обученной моделью. Во всех изображениях сохраняются крупные глаза, компактная форма, декоративность, предметный характер подачи и узнаваемая милота образа.
Внутри серии есть различия по цвету, типу животного, деталям мордочки, форме ушей, пропорциям тела, пластике позы и степени условности образа. Некоторые варианты выглядят ближе к реально существующим игрушкам, а некоторые уже воспринимаются как новые гибридные существа, которых в исходном наборе не было.
Во многих генерациях видно, что нейросеть почти везде уверенно воспроизводит характерное соотношение большой головы и маленького тела, крупные глаза, маленький нос, округлые щёки и общее ощущение игрушечности. Также считывается предметный способ показа объекта.
Google Colab
Сначала были установлены необходимые зависимости, после чего был подключён Google Drive, где хранилась папка с исходными изображениями. Затем датасет был скопирован в рабочую директорию Colab, чтобы модель могла быстрее обращаться к файлам во время обучения. После этого был запущен скрипт обучения DreamBooth LoRA для Stable Diffusion XL.
На этапе запуска пришлось отдельно проверить, где именно лежат изображения, устранить лишнюю вложенность папок и подобрать корректные параметры запуска. Также по ходу работы пришлось исправить несколько технических проблем, например, убрать параметр xformers, который не поддерживался в текущем окружении, и перейти к более стабильной конфигурации обучения.
В итоге модель была обучена на 200 изображениях игрушечных животных. После завершения обучения в выходной папке появились веса LoRA и checkpoint-файлы, которые затем использовались для генерации итоговой серии изображений. Сам ноутбук с кодом прилагается к проекту как часть документации процесса.
Использование нейросетей в создании проекта
В процессе работы над проектом использовались нейросети, во-первых, для генерации изображения обложки, а во-вторых, для помощи с устранением технических проблем.
Для обеих этих целей использовалась нейросеть ChatGPT.




