Проект посвящён исследованию возможностей генеративных нейросетей в работе с визуальным персонажем. В качестве объекта выбран Labubu — узнаваемая игрушка с понятными характеристиками, что делает её удобной моделью для данной задачи.
В работе использована модель Stable Diffusion XL, дообученная на собственном датасете с помощью DreamBooth и LoRA.
концепция
В основе проекта лежит идея расширения визуального существования персонажа.
В данном проекте нейросеть выполняет функцию интерпретации объекта, удерживая его ключевые признаки. Таким образом, генерация становится не столько инструментом создания изображений, сколько способом исследования границы между оригиналом и вариацией.
процесс обучения
Процесс обучения строился как последовательная адаптация модели под новый визуальный объект. На первом этапе был собран датасет изображений Labubu, включающий фотографии с разными ракурсами, освещением и положением объекта в пространстве. Это позволило задать модели базовое представление о форме и структуре персонажа.
Далее изображения были автоматически описаны с помощью модели BLIP, которая генерирует текстовые подписи. К каждому описанию добавлялся устойчивый префикс «labubu toy», формирующий текстовый якорь, через который модель связывает визуальный образ с языком.
Обучение проводилось с использованием DreamBooth и LoRA, что позволило сохранить базовые знания модели и одновременно внедрить в неё новый объект. За счёт этого достигается баланс между устойчивостью генерации и её вариативностью. В процессе использовались оптимизации, позволяющие работать в ограниченных вычислительных условиях, что также отражает практическую сторону проекта.
исходные изображения
Датасет проекта представляет собой набор изображений Labubu, снятых в разных условиях. Важно, что изображения не являются полностью идентичными: они различаются по освещению, масштабу и композиции.
генерации
После обучения модель используется для создания новых изображений через текстовые запросы. Все промпты строятся вокруг устойчивого идентификатора «labubu toy», к которому добавляются различные сценарии.
Такой принцип позволяет наблюдать, как один и тот же объект ведёт себя в разных контекстах. Labubu может находиться в бытовой среде, взаимодействовать с другими объектами или попадать в нереалистичные условия, при этом сохраняя ключевые черты.
анализ генераций
Результаты генерации показывают, что модель успешно усваивает основные характеристики персонажа. В большинстве случаев сохраняется форма, пропорции и узнаваемый силуэт Labubu, что говорит о корректной работе DreamBooth и LoRA в условиях ограниченного датасета.
Одновременно проявляются типичные ограничения генеративных моделей. В сложных сценах возникают артефакты, нарушается логика пространства, а детали могут становиться нестабильными. Особенно это заметно при попытке задать множественные объекты или динамичные действия.
Ключевым выводом проекта становится то, что нейросеть не воспроизводит объект в точности, а формирует его обобщённую модель. Это позволяет ей создавать новые изображения, но делает результат зависимым от качества и разнообразия исходных данных.
использование ии
Список использованных инструментов: — Google Colab — обучение SDXL DreamBooth LoRA — NanoBananaPro — для улучшение качества изображений — ChatGPT — решение технических проблем




