Обучение генеративной нейросети под стиль MACRO на BRND

Идея проекта — создание специализированной LoRa-модели, обученной на архиве макро-фотографий. Модель генерирует изображения, находящиеся на грани фотографии и абстрактной живописи. Объекты теряют свою узнаваемость, превращаясь в чистые текстуры и создавая миры, где масштаб неопределим.

Исходные изображения

Исходный размер 3432x669

Для обучения отбирались фотографии, на которых объекты плохо различимы, а главная роль отведена контрастности, цветам, объему и текстурам.

Исходный размер 2276x734

Датасет состоит из 29 изображений, взятых с сайта Unsplash с открытой лицензией.

Исходный размер 3432x669

Процесс обучения

Модель: Stable Diffusion XL Base 1.0 Метод: DreamBooth LoRA Количество шагов: 500 Разрешение: 1024×1024 Шаг обучения: 500

Перед началом обучения были установлены необходимые библиотеки и загружен датасет из 29 изображений. С помощью BLIP созданы текстовые описания.

Исходный размер 1828x435

Исходный размер 1828x814

Начало процесса обучения и загрузка базовой модели SDXL 1.0 и VAE с оптимизацией fp16 для экономии памяти и ускорения.

Исходный размер 1593x856

Результирующие изображения

1. prompt: «MACRO style, abstract macro texture, bubbles, natural, colorful» 2. prompt: «MACRO style, abstract macro texture, organism, colorful»

Исходный размер 1024x1024

prompt: «MACRO style, abstract macro texture, natural, colorful»

1, 2. prompt: «MACRO style, translucent membranes, organic, colorful»

Исходный размер 1024x1024

prompt: «photo in MACRO style, bioluminescent alien flora»

Исходный размер 1024x1024

prompt: «combination of different textures in MACRO style»

1, 2. prompt: «combination of different textures in MACRO style, abstract»

Комментарий

Итогом стала серия из 9 изображений в стиле MACRO. В природе существует огромное количество рисунков и паттернов, но обученная модель дает возможность создавать бесконечные вариации несуществующих материалов. Результат демонстрирует разнообразие текстур, игру света, а также характерное для макро-фотографии размытие краев и микро-детали. Все изображения имеют характерную для макро-фотографии глубину резкости и масштаб.

В процессе генерации мне было интересно, сможет ли модель передать естественные цвета, так как часто при генерации бактерий или макро-фотографий оттенки получаются слишком искусственными и яркими. В результате, я получила изображения, которые по тону очень приближены к реальным макро-фотографиям флоры и фауны. Среди них оказались и более яркие варианты, которые больше приближены к абстракции и изображениям, получаемым под микроскопом. Это тоже передает идею о невозможности передать масштаб.

Описание применения генеративной модели

Stable Diffusion XL 1.0 — базовая генеративная модель (ссылка: https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0)
BLIP (Bootstrapping Language-Image Pre-training) — генерация текстовых подписей для обучающих изображений (ссылка: https://huggingface.co/Salesforce/blip-image-captioning-base)
Dreambooth + LoRA — дообучение базовой модели под визуальный стиль MACRO

Блокнот