Генерация изображений на основе детской поделки на BRND

Идея проекта

Идея проекта появилась довольно случайно — я наткнулась на старую детскую поделку, модель солнечной системы, сделанную из обычной коробки. Она сразу зацепила мое внимание: неровные планеты, простая покраска, немного наивные пропорции и ощущение, что всё собрано вручную без попытки сделать «правильно».

В этом объекте есть особое настроение, ведь он воспринимается не как научная модель, а как личное представление о космосе.

Мне стало интересно, можно ли перенести это ощущение в генеративную модель и сохранить его при создании новых изображений. В рамках проекта я обучаю Stable Diffusion на фотографиях этой поделки, чтобы затем получить серию генераций, в которых объект сохраняет свою узнаваемость, но при этом существует в других условиях — с новым светом, композицией и окружением.

Таким образом, я рассматриваю модель не просто как инструмент генерации, а как способ переосмысления исходного объекта: насколько она способна уловить его характер и продолжить его визуальную логику за пределами оригинальной формы.

В дальнейшем полученные изображения можно рассматривать как основу для иллюстраций или визуальных серий, где детская интерпретация космоса превращается в самостоятельный художественный образ.

Изображения для обучения

Для обучения модели я самостоятельно собрала датасет из фотографий поделки. Объект был снят с разных ракурсов, чтобы зафиксировать его форму и объём, а также при различном освещении — от более мягкого до контрастного.

Все изображения были приведены к квадратному формату. Итоговый датасет включает 20 фотографий, которые отличаются по углу съёмки и свету, что позволило сделать его более разнообразным и пригодным для обучения.

Применение генеративной модели

Во время выполнения проекта использовались следующие инструменты: — Stable Diffusion для обучения генеративной модели; — Google Colab для выполнения кода; — ChatGPT для написания промптов.

Обучение генеративной модели

1) Подготовка среды и установка зависимостей 

На первом этапе была настроена рабочая среда в Google Colab и установлены необходимые библиотеки для работы со Stable Diffusion.

Исходный размер 1024x626

2) Конфигурация проекта 

Далее я задала основные параметры проекта, включая путь к датасету и текстовый идентификатор объекта, который использовался в процессе обучения.

Исходный размер 1024x626

3) Проверьте набор данных и предварительный просмотр изображений 

На этом этапе проверяется папка с данными, отбираются подходящие изображения и выводится их предварительный просмотр.

4) Дополнительная предварительная обработка 

На этом этапе выполняется дополнительная обработка данных: изображения переводятся в формат RGB и приводятся к квадратному виду с центрированием.

Исходный размер 1024x626

5) Создание подписей / метаданных 

В этом разделе формируется файл метаданных, используемый в процессе обучения.

Исходный размер 1024x626

6) Настройка Accelerate 

На этом этапе подготавливается конфигурация Accelerate для запуска скрипта обучения.

Исходный размер 1024x583

7) Обучение модели (LoRA) 

На этом этапе проверяется среда, собирается команда и запускается обучение модели.

8) Проверка сохранённых файлов 

После обучения выводится список файлов, созданных в выходной директории.

Исходный размер 1024x269

9) Подключение LoRA

Загружается модель и применяется обученная LoRA для генерации изображений.

Исходный размер 1024x731

Исходный размер 1024x188

Итоговые изображения

После завершения обучения я перешла к генерации изображений с использованием полученной модели. Для этого я использовала собственные текстовые запросы, в которых указывала объект и задавала различные условия окружения и освещения.

Все промпты строились вокруг уникального идентификатора объекта, чтобы модель корректно воспроизводила обученную форму и сохраняла его визуальные особенности в разных сценах.

промпт: «educational poster style image of handmade solar system model, clean background, vibrant colors» 

Первой пробой стала генерация изображения с обученной моделью, в котором объект сохраняется в приближённых к исходным условиях на полностью белом фоне. Результат сразу показался удачным: нейросеть достаточно точно передала форму поделки, расположение планет и общую композицию.

Исходный размер 1024x1024