Анна Яковлева

Исходный размер 1140x1600

Обучение генеративной модели на изображеиях лиминальных пространств

искусственный интеллект

2

Концепция

Лиминальные пространства — это архитектурные и городские зоны, предназначенные не для длительного пребывания человека, а для перемещения между различными функциональными частями здания или среды. К таким пространствам относятся коридоры, лестницы, холлы, парковки и другие промежуточные зоны. Сам термин связан с понятием лиминальности (от лат. līmen — «порог»), которое в рамках антропологии описывает переходное состояние между различными стадиями или статусами.

Исходный размер 2088x1024

Примеры изображений, использованных для обучения генеративной модели

В контексте визуальной культуры лиминальные пространства часто воспринимаются как места неопределённости. Они хорошо знакомы человеку, поскольку являются частью повседневной архитектурной среды, но в определённых условиях начинают восприниматься иначе. Отсутствие людей, тишина и статичность могут вызывать ощущение странности, тревоги или нереальности происходящего.

Исходный размер 2088x1024

Примеры изображений, использованных для обучения генеративной модели

Целью данного проекта является обучение генеративной модели Stable Diffusion на наборе изображений лиминальных пространств с последующей генерацией серии новых изображений в аналогичном визуальном стиле. В рамках проекта предполагается определить, насколько нейросеть способна воспроизводить ключчевые характеристики подобных пространств и передавать их атмосферу.

Исходный размер 2088x1024

Примеры изображений, использованных для обучения генеративной модели

Выбор данной темы обусловлен тем, что лиминальные пространства обладают относительно устойчивым набором визуальных признаков. К ним относятся повторяемость архитектурных элементов, специфические типы освещения, отсутствие людей и выраженная композиционная симметрия. Эти особенности формируют узнаваемый визуальный язык, что делает данный стиль удобным и показательным для обучения нейросети даже на сравнительно небольшом датасете изображений.

Датасет

Для формирования обучающей выборки использовались изображения из открытых фотостоков (Unsplash, Freepik, Wikimedia) с лицензией, допускающей их использование в учебных и исследовательских целях. Дополнительно часть изображений была сгенерирована с помощью таких инструментов как ChatGPT, Krea AI и Nano Banana Pro. Такой подход позволил расширить вариативность изображений и при этом сохранить стилистическую целостность датасета.

Исходный размер 2088x1024

Примеры изображений, использованных для обучения генеративной модели

В итоговую выборку вошло 100 изображений, приведённых к единому формату (квадратное соотношение сторон и разрешение 512×512 пикселей), что обеспечило корректность и стабильность процесса обучения модели.

Исходный размер 2088x1024

Примеры изображений, использованных для обучения генеративной модели

При отборе изображений особое внимание уделялось визуальным характеристикам лиминальных пространств, упомянутых ранее. В качестве основного референса использовалась интернет-эстетика Backrooms, для которой характерны однообразные коридорные пространства, жёлтые оттенки, а также ощущение бесконечности и дезориентации.

Исходный размер 2088x1024

Примеры изображений, использованных для обучения генеративной модели

Исходный размер 2088x1024

Примеры изображений, использованных для обучения генеративной модели

Ссылка на датасет

Процесс обучения модели

В начале работы было выполнено подключение облачного хранилища Google Drive для доступа к датасету и сохранения результатов. Также была выведена информация о GPU.

Исходный размер 3339x317

Фрагмент кода

Далее были установлены основные библиотеки, необходимые для работы с генеративными моделями и оптимизации обучения, подключён репозиторий с реализацией метода DreamBooth для Stable Diffusion XL.

Исходный размер 3339x215

Фрагмент кода

На следующем этапе были заданы пути к обучающему датасету и директории для сохранения результатов, определены ключевые параметры обучения. Дополнительно была настроена кодировка UTF-8 для корректной работы с файлами и предотвращения возможных ошибок при обработке данных.

Исходный размер 3339x735

Фрагмент кода

Затем была использована модель BLIP (Bootstrapping Language-Image Pre-training) для автоматической генерации текстовых описаний изображений. Каждое изображение из датасета анализировалось нейросетью, после чего формировалось краткое текстовое описание, сохраняемое в отдельный файл. Данный этап является важным, поскольку Stable Diffusion обучается на связке изображений и текстовых описаний.

Исходный размер 3339x1895

Фрагмент кода

После этого была проведена подготовка датасета. Сформирован файл metadata.jsonl и проверена корректность структуры данных. Каждая запись в метаданных содержит путь к изображению и соответствующее текстовое описание.

Исходный размер 3339x815

Фрагмент кода

Основной этап работы заключался в запуске обучения модели с использованием подхода DreamBooth и метода LoRA на базе Stable Diffusion XL 1.0. В процессе обучения задавались параметры, определяющие описание обучаемого стиля, размер изображений, снижение потребления памяти и другие.

Исходный размер 3339x1407

Фрагмент кода

После завершения обучения была загружена базовая модель Stable Diffusion XL, к которой были подключены обученные веса LoRa. Дополнительно использовалась улучшенная версия VAE для повышения качества итоговых изображений.

Исходный размер 3339x1558

Фрагмент кода

В последующих ячейках осуществлялась генерация изображений с использованием различных текстовых промптов. Задавались параметры, такие как количество шагов генерации и степень соответствия изображения заданному описанию. Варьирование промптов позволило оценить, насколько хорошо модель обобщает стиль и переносит его на разные типы пространств.

Исходный размер 3339x670

Фрагмент кода

Ссылка на блокнот

Результирующие изображения и их анализ

Анализ полученных генераций показал, что модель наиболее успешно справляется с изображением коридорных пространств. Я предполагаю, это связано с тем, что подобные изображения преобладали в обучающем датасете, благодаря чему модель лучше усвоила их геометрию, перспективу и композиционные особенности.

Исходный размер 2088x1024

Результирующие изображения

Исходный размер 2088x1024

Результирующие изображения

Сгенерированные коридоры обладают характерной для лиминальных пространств визуальной структурой: повторяемостью архитектурных элементов, выраженной линейной перспективой и отсутствием людей. В изображениях также сохраняется ощущение пустоты и неопределённости, что является важной частью эстетики. При этом композиционная симметрия воспроизводится не во всех случаях и может нарушаться.

Исходный размер 2088x1024

Результирующие изображения

Исходный размер 2088x1024

Результирующие изображения

Кроме того, модель достаточно точно воспроизводит цветовую палитру обучающего датасета. В сгенерированных изображениях преобладают жёлтые, бежевые и холодные голубовато-зелёные оттенки. Освещение в большинстве случаев также передаётся корректно. Характерный рассеянный свет люминесцентных ламп усиливает ощущение искусственности пространства.

Исходный размер 2088x1024

Результирующие изображения

В то же время в результатах можно заметить определённые стилевые различия. В изображениях, выходящих за рамки коридорных пространств (например, в более сложных сценах), визуальная целостность снижается. В таких случаях модель хуже справляется с сохранением композиции и общей логики пространства.

Исходный размер 2088x1024

Результирующие изображения

Исходный размер 2088x1024

Результирующие изображения

Также можно заметить наличие отдельных артефактов, характерных для генеративных моделей. Например, неестественные переходы поверхностей, искажения геометрии и дефекты деталей. Однако в контексте лиминальных пространств подобные особенности могут восприниматься как часть визуального языка, которая усиливает ощущение нереальности происходящего.

Исходный размер 2088x1024

Результирующие изображения

Исходный размер 2088x1024

Результирующие изображения

В целом можно сделать вывод, что модель успешно усвоила основные визуальные характеристики выбранной эстетики и способна воспроизводить её в наиболее типичных сценариях. Полученные результаты подтверждают, что даже при относительно небольшом объёме обучающей выборки возможно достичь узнаваемого результата.

Описание применения генеративных моделей

Stable Diffusion XL 1.0 Цель: базовая генеративная модель, основа для дальнейшего дообучения.
DreamBooth + LoRA Цель: адаптация базовой модели через дообучение.
BLIP (Bootstrapping Language-Image Pre-training) Цель: автоматическая генерация текстовых описаний.
ChatGPT Цель: создание и уточнение текстовых промптов, оптимизация параметров обучения для снижения потребления памяти при работе в облачной среде, генерация нескольких исходных изображений для обучающего датасета.
Krea AI Цель: генерация нескольких исходных изображений для обучающего датасета.
Nano Banana Pro Цель: генерация нескольких исходных изображений для обучающего датасета.

Обучение генеративной модели на изображеиях лиминальных пространств

Анна Яковлева

искусственный интеллект

2

Проект создан 21.03.2026

Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...

Показать больше