Идея проекта — создание специализированной LoRa-модели, обученной на архиве макро-фотографий. Модель генерирует изображения, находящиеся на грани фотографии и абстрактной живописи. Объекты теряют свою узнаваемость, превращаясь в чистые текстуры и создавая миры, где масштаб неопределим.
Исходные изображения

Для обучения отбирались фотографии, на которых объекты плохо различимы, а главная роль отведена контрастности, цветам, объему и текстурам.

Датасет состоит из 29 изображений, взятых с сайта Unsplash с открытой лицензией.

Процесс обучения
Модель: Stable Diffusion XL Base 1.0 Метод: DreamBooth LoRA Количество шагов: 500 Разрешение: 1024×1024 Шаг обучения: 500
Перед началом обучения были установлены необходимые библиотеки и загружен датасет из 29 изображений. С помощью BLIP созданы текстовые описания.
Начало процесса обучения и загрузка базовой модели SDXL 1.0 и VAE с оптимизацией fp16 для экономии памяти и ускорения.
Результирующие изображения


1. prompt: «MACRO style, abstract macro texture, bubbles, natural, colorful» 2. prompt: «MACRO style, abstract macro texture, organism, colorful»
prompt: «MACRO style, abstract macro texture, natural, colorful»


1, 2. prompt: «MACRO style, translucent membranes, organic, colorful»
prompt: «photo in MACRO style, bioluminescent alien flora»
prompt: «combination of different textures in MACRO style»


1, 2. prompt: «combination of different textures in MACRO style, abstract»
Комментарий
Итогом стала серия из 9 изображений в стиле MACRO. В природе существует огромное количество рисунков и паттернов, но обученная модель дает возможность создавать бесконечные вариации несуществующих материалов. Результат демонстрирует разнообразие текстур, игру света, а также характерное для макро-фотографии размытие краев и микро-детали. Все изображения имеют характерную для макро-фотографии глубину резкости и масштаб.
В процессе генерации мне было интересно, сможет ли модель передать естественные цвета, так как часто при генерации бактерий или макро-фотографий оттенки получаются слишком искусственными и яркими. В результате, я получила изображения, которые по тону очень приближены к реальным макро-фотографиям флоры и фауны. Среди них оказались и более яркие варианты, которые больше приближены к абстракции и изображениям, получаемым под микроскопом. Это тоже передает идею о невозможности передать масштаб.
Описание применения генеративной модели
Stable Diffusion XL 1.0 — базовая генеративная модель (ссылка: https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0)
BLIP (Bootstrapping Language-Image Pre-training) — генерация текстовых подписей для обучающих изображений (ссылка: https://huggingface.co/Salesforce/blip-image-captioning-base)
Dreambooth + LoRA — дообучение базовой модели под визуальный стиль MACRO




