Austin Lee Zoo на BRND

Концепция

Идея проекта — создание зоопарка в стиле работ художника Austin Lee, в котором пластические и диджитал формы органично внедряются в живой, выразительный мир, формируя новые гибридные образы, находящиеся на грани между искусственным и естественным.

В качестве стилистического ориентирования выбран визуальный язык Остина Ли — художника, чьи работы находятся на стыке цифровой и традиционной живописи. Его стиль — это яркие, неоновые цвета, мультяшная пластика форм, эмоциональные образы и ощущение «цифровой плоскости», что делает его идеальным проводником для визуализации постчеловеческого, нейро-органического мира.

Для реализации проекта был собран датасет из 50 работ Остина Ли, на основе которого была обучена генеративная нейросеть. В результате возникла серия изображений, представляющих собой фантастических существ и пейзажи зоопарка, где природа существует в абсурдной, но гармоничной визуальной экосистеме зоопарка. Это — зоопарк, где животные могут сливаться сприродой, распадаться и соединяться, оставаясь при этом эмоционально узнаваемыми и визуально живыми.

Исходный размер 1920x1441

работы художника Остина Ли

ссылка на собранный датасет

Сгенерированные изображения

Исходный размер 1530x1524

Исходный размер 1142x1155

Исходный размер 1527x1529

Исходный размер 1154x1152

Исходный размер 1155x1155

Исходный размер 1154x1152

Исходный размер 1530x1529

Исходный размер 1151x1152

Исходный размер 1151x1151

Исходный размер 1154x1154

Особенности процесса генерации

В некоторых случаях генерации отходили от стиля Остина Ли в более художественную сторону с выраженными мазками кисти или наоборот в сторону 3d визуализаций, чтобы прийти к консистентности генераций я чаще прописывала свой стиль в Промте и вывела наиболее подходящий Промт для генераций:

«A painting of the orange tiger with funny expression in the central park in the new york in the style of CHERKASHIN, peeking out of the water, in the style of CHERKASHIN, backround in the vibrant blue and red colors, in the style of CHERKASHI»

Исходный размер 2414x1604

примеры неудачных генераций гиппопотама в разных художественных стилях

Также была проблема с визуализацией правильного количества конечной у животных, так как на картинах Остина Ли часто объекты не реальной физиологической формы. Её я решила бОльшими попытками генераций.

Исходный размер 2414x757

примеры неудачных генераций гиппопотама с лишними конечностями

Ссылка на код

Финальный результат проекта — это серия сгенерированных изображений, представляющих воображаемый зоопарк в стиле Остина Ли. Эти изображения объединяют элементы биологического мира (животные, растения, ландшафты) с эстетикой цифровой и машинной реальности, отражая концептуальную идею сосуществования природы и технологий. Каждое изображение демонстрирует попытку найти визуальную гармонию между естественным и искусственным.

Этап 1: Подготовка среды Проверяется наличие GPU (! nvidia-smi).

Устанавливаются необходимые библиотеки: transformers, diffusers, peft, bitsandbytes, accelerate — всё это нужно для работы с продвинутыми генеративными нейросетями.

Скачивается обучающий скрипт train_dreambooth_lora_sdxl.py из репозитория HuggingFace.

Исходный размер 2102x1343

Этап 2: Настройка обучения (DreamBooth + LoRA) Используется подход DreamBooth (тонкая настройка модели на новых образах).

Подключается метод LoRA (эффективное дообучение с малым числом параметров).

Настраиваются пути к данным (папки с изображениями, где представлены пользовательские образы для дообучения модели).

Исходный размер 2102x1603

Этап 3: Запуск обучения Запускается дообучение модели на собственных данных с помощью DreamBooth + LoRA.

Указывается имя предмета и токен, по которому потом будет вызываться образ (например, «a photo of sks dog»).

В процессе обучения модель учится распознавать и воспроизводить уникальные черты объекта.

Исходный размер 2102x1798

Исходный размер 2102x1928

Этап 4: Подгрузка обученной модели и генерация подписей к изображениям На этом этапе осуществляется подготовка обучающих данных для модели и подключение необходимых компонентов:

Автоматическая генерация подписей к изображениям Все изображения из папки ./cartinki/ обрабатываются с помощью модели BLIP, которая генерирует текстовое описание (caption) для каждого изображения. Это описание отражает содержание изображения на естественном языке.

Добавление авторского стиля К каждому сгенерированному описанию добавляется заданный префикс:

«photo collage in CHERKASHIN style, …»,

чтобы указать модели на нужный художественный стиль при последующем обучении и генерации.

Создание файла метаданных Все данные (имя файла и текстовый промпт) сохраняются в формате JSONL в файл metadata.jsonl. Пример строки в этом файле:

json Копировать Редактировать {"file_name»: «example.jpg», «prompt»: «photo collage in CHERKASHIN style, a dog playing on the beach"} Очистка памяти После генерации описаний освобождаются ресурсы, удаляются ненужные переменные и очищается память GPU.

Этот шаг обеспечивает корректную подготовку данных для дообучения модели в стиле конкретного автора и связывает изображения

Исходный размер 2102x901

Этап 5: Генерация изображения После завершения обучения и загрузки модели с дообученными LoRA-весами, запускается финальный этап — генерация изображения.

Формулируется текстовый промпт, описывающий желаемую сцену и стиль. В проекте использован следующий пример запроса:

«photo collage in CHERKASHIN style, times square, new york»

Он задаёт композицию в авторском стиле «Черкашина» с конкретной локацией — Таймс-сквер в Нью-Йорке.

Модель Stable Diffusion XL, дообученная с помощью DreamBooth и LoRA, принимает промпт и создаёт изображение, соответствующее описанию.

Результат визуализируется через библиотеку matplotlib и выводится в ноутбуке. Полученное изображение — это синтез визуального стиля из обучающей выборки и новых семантических признаков, заданных в тексте.

Исходный размер 2102x1454