Концепция
Основной задачей проекта было обучение нейросети для создания аутентичных фотографий различных цветковых растений, которые были бы похожи на реально существующие цветы. Кроме того, хотелось узнать, справиться ли нейросеть с созданием изображений, которые имеют определенную наложенную поверх них текстуру и напоминают фотографии из старых журналов о садоводстве.
Исходные изображения для обучения
В качестве источников исходных изображений были выбраны различные цветочные растения, особенно те, что имеют довольно необычную форму и расцветку. Фотографии были собраны из датасета на сайте kaggle с лицензией «CC0: Public Domain».

На изображениях представлены цветы разных форм, оттенков и размеров для того, чтобы разнообразить базу данных и позволить нейросети лучше искать закономерности и генерировать результаты.


Результирующая серия изображений
На основе промптов получена серия из 10 изображений с разными цветами:
- «vibrant red rose» — красивое поле, усеянное розами
- «violet flower in the sunlight» — поле из ярких фиолетовых цветов
- «white orchid» — белая орхидея посреди сада
- «blue hydrangeas» — пучки из красивых голубых гортензий
- «white daisy on the mountain» — белая маргаритка, расположенная в горах
- «colorful tulips» — красочные тюльпаны, имеющие насыщенные оттенки лепестков
- «pink lotus flower in a lake» — розовый лотос в пруду, который контрастом выделяется на фоне кувшинок
- «yellow sunflower» — поле из подсолнухов, имеющее веселое настроение
- «pink cherry blossom» — цветущее вишневое дерево в саду
- «rainbow wildflower among the moss» — дикие цветы, растущие посреди мха




Развернутый комментарий результатов
Анализ соответствия концепции. Полученные результаты, обработанные нейросетью, демонстрируют ее способность создавать реалистичные фотографии цветов. Модель усвоила ключевые принципы гибридизации.
Переданные элементы стиля:
- Цветовая интеграция — Разнообразие в оттенках цветковых растений. Цвета не просто повторяются, но вместе с тем задают определенное настроение получившемуся изображению.
- Текстуральное слияние — На фотографии исходного датасета наложен небольшой шум, что делает изображение похожими на фотографии из журналов о садоводстве. Нейросеть успешно отметила данную особенность и использовала ее при генерации.
- Структурная адаптация — Получившиеся цветковые растения органично вписаны в окружение, не имеют четко выраженных артефактов или ошибок в структуре самого растения.
Изображение 1 и изображение 2 («vibrant red rose» и «violet flower in the sunlight») — Контрастные яркие цвета создают позитивное настроение. — В получившихся изображениях можно четко отделить передний план от дальнего, цветы не превращаются в одну общую неразборчивую массу.
Изображения 3, 4, 5 («white orchid», «blue hydrangeas», «white daisy on the mountain») — Успешное создание изображений с использованием диагонального ракурса, что придает динамику картинам. — Нейросеть способна создавать не только растения с яркими цветами, а также использовать более мягкие пастельные тона.
Изображения 6, 7, 8 («colorful tulips», «pink lotus flower in a lake», «yellow sunflower») — Успешная передача текстурных особенностей листьев и лепестков у подсолнухов, тюльпанов и кувшинок.
Изображения 9 и 10 («pink cherry blossom», «rainbow wildflower among the moss») — Гармоничное сочетание ярких оттенков с более приглушенными.
Техническая реализация
Процесс обучения Архитектура и параметры:
- Базовая модель: Stable Diffusion 1.5
- Метод адаптации: LoRA (Low-Rank Adaptation)
- Размер датасета: 104 изображения
- Количество шагов: 500 шагов
- Разрешение: 512×512 пикселей
Дополнительные параметры обучения:
- Batch size: 2 (train_batch_size=2)
- Gradient accumulation: 2 шага
- Learning rate: 1e-4
- Mixed precision: FP16
- Оптимизатор: 8-bit Adam
- LR scheduler: constant (без разогрева)
- Seed: 0
Описание применения генеративной модели
Stable Diffusion 1.5 (runwayml/stable-diffusion-v1-5)— Ссылка: https://huggingface.co/stable-diffusion-v1-5/stable-diffusion-v1-5 — Цель: Базовая модель для генерации изображений
BLIP (Salesforce/blip-image-captioning-base) — Ссылка: https://huggingface.co/Salesforce/blip-image-captioning-base — Цель: Автоматическая генерация подписей к загруженным изображениям цветов
LoRA адаптеры — Цель: Обучение базовой модели на датасете цветов, эффективная персонализация модели под специфический стиль




