Обучение генеративной нейросети Stable Diffusion под генерацию цветов на BRND

Концепция

Основной задачей проекта было обучение нейросети для создания аутентичных фотографий различных цветковых растений, которые были бы похожи на реально существующие цветы. Кроме того, хотелось узнать, справиться ли нейросеть с созданием изображений, которые имеют определенную наложенную поверх них текстуру и напоминают фотографии из старых журналов о садоводстве.

Исходные изображения для обучения

В качестве источников исходных изображений были выбраны различные цветочные растения, особенно те, что имеют довольно необычную форму и расцветку. Фотографии были собраны из датасета на сайте kaggle с лицензией «CC0: Public Domain».

Исходный размер 2624x2480

На изображениях представлены цветы разных форм, оттенков и размеров для того, чтобы разнообразить базу данных и позволить нейросети лучше искать закономерности и генерировать результаты.

Исходный размер 2263x1249

Результирующая серия изображений

На основе промптов получена серия из 10 изображений с разными цветами:

«vibrant red rose» — красивое поле, усеянное розами
«violet flower in the sunlight» — поле из ярких фиолетовых цветов
«white orchid» — белая орхидея посреди сада
«blue hydrangeas» — пучки из красивых голубых гортензий
«white daisy on the mountain» — белая маргаритка, расположенная в горах
«colorful tulips» — красочные тюльпаны, имеющие насыщенные оттенки лепестков
«pink lotus flower in a lake» — розовый лотос в пруду, который контрастом выделяется на фоне кувшинок
«yellow sunflower» — поле из подсолнухов, имеющее веселое настроение
«pink cherry blossom» — цветущее вишневое дерево в саду
«rainbow wildflower among the moss» — дикие цветы, растущие посреди мха

Исходный размер 2480x916

Исходный размер 2263x1249

Исходный размер 2480x1517

Развернутый комментарий результатов

Анализ соответствия концепции. Полученные результаты, обработанные нейросетью, демонстрируют ее способность создавать реалистичные фотографии цветов. Модель усвоила ключевые принципы гибридизации.

Переданные элементы стиля:

Цветовая интеграция — Разнообразие в оттенках цветковых растений. Цвета не просто повторяются, но вместе с тем задают определенное настроение получившемуся изображению.
Текстуральное слияние — На фотографии исходного датасета наложен небольшой шум, что делает изображение похожими на фотографии из журналов о садоводстве. Нейросеть успешно отметила данную особенность и использовала ее при генерации.
Структурная адаптация — Получившиеся цветковые растения органично вписаны в окружение, не имеют четко выраженных артефактов или ошибок в структуре самого растения.

Изображение 1 и изображение 2 («vibrant red rose» и «violet flower in the sunlight») — Контрастные яркие цвета создают позитивное настроение. — В получившихся изображениях можно четко отделить передний план от дальнего, цветы не превращаются в одну общую неразборчивую массу.

Изображения 3, 4, 5 («white orchid», «blue hydrangeas», «white daisy on the mountain») — Успешное создание изображений с использованием диагонального ракурса, что придает динамику картинам. — Нейросеть способна создавать не только растения с яркими цветами, а также использовать более мягкие пастельные тона.

Изображения 6, 7, 8 («colorful tulips», «pink lotus flower in a lake», «yellow sunflower») — Успешная передача текстурных особенностей листьев и лепестков у подсолнухов, тюльпанов и кувшинок.

Изображения 9 и 10 («pink cherry blossom», «rainbow wildflower among the moss») — Гармоничное сочетание ярких оттенков с более приглушенными.

Техническая реализация

Процесс обучения Архитектура и параметры:

Базовая модель: Stable Diffusion 1.5
Метод адаптации: LoRA (Low-Rank Adaptation)
Размер датасета: 104 изображения
Количество шагов: 500 шагов
Разрешение: 512×512 пикселей

Дополнительные параметры обучения:

Batch size: 2 (train_batch_size=2)
Gradient accumulation: 2 шага
Learning rate: 1e-4
Mixed precision: FP16
Оптимизатор: 8-bit Adam
LR scheduler: constant (без разогрева)
Seed: 0

Описание применения генеративной модели

Stable Diffusion 1.5 (runwayml/stable-diffusion-v1-5)— Ссылка: https://huggingface.co/stable-diffusion-v1-5/stable-diffusion-v1-5 — Цель: Базовая модель для генерации изображений
BLIP (Salesforce/blip-image-captioning-base) — Ссылка: https://huggingface.co/Salesforce/blip-image-captioning-base — Цель: Автоматическая генерация подписей к загруженным изображениям цветов
LoRA адаптеры — Цель: Обучение базовой модели на датасете цветов, эффективная персонализация модели под специфический стиль

Блокнот