Концепция
Лиминальные пространства — это архитектурные и городские зоны, предназначенные не для длительного пребывания человека, а для перемещения между различными функциональными частями здания или среды. К таким пространствам относятся коридоры, лестницы, холлы, парковки и другие промежуточные зоны. Сам термин связан с понятием лиминальности (от лат. līmen — «порог»), которое в рамках антропологии описывает переходное состояние между различными стадиями или статусами.

Примеры изображений, использованных для обучения генеративной модели
В контексте визуальной культуры лиминальные пространства часто воспринимаются как места неопределённости. Они хорошо знакомы человеку, поскольку являются частью повседневной архитектурной среды, но в определённых условиях начинают восприниматься иначе. Отсутствие людей, тишина и статичность могут вызывать ощущение странности, тревоги или нереальности происходящего.

Примеры изображений, использованных для обучения генеративной модели
Целью данного проекта является обучение генеративной модели Stable Diffusion на наборе изображений лиминальных пространств с последующей генерацией серии новых изображений в аналогичном визуальном стиле. В рамках проекта предполагается определить, насколько нейросеть способна воспроизводить ключчевые характеристики подобных пространств и передавать их атмосферу.
Примеры изображений, использованных для обучения генеративной модели
Выбор данной темы обусловлен тем, что лиминальные пространства обладают относительно устойчивым набором визуальных признаков. К ним относятся повторяемость архитектурных элементов, специфические типы освещения, отсутствие людей и выраженная композиционная симметрия. Эти особенности формируют узнаваемый визуальный язык, что делает данный стиль удобным и показательным для обучения нейросети даже на сравнительно небольшом датасете изображений.
Датасет
Для формирования обучающей выборки использовались изображения из открытых фотостоков (Unsplash, Freepik, Wikimedia) с лицензией, допускающей их использование в учебных и исследовательских целях. Дополнительно часть изображений была сгенерирована с помощью таких инструментов как ChatGPT, Krea AI и Nano Banana Pro. Такой подход позволил расширить вариативность изображений и при этом сохранить стилистическую целостность датасета.
Примеры изображений, использованных для обучения генеративной модели
В итоговую выборку вошло 100 изображений, приведённых к единому формату (квадратное соотношение сторон и разрешение 512×512 пикселей), что обеспечило корректность и стабильность процесса обучения модели.
Примеры изображений, использованных для обучения генеративной модели
При отборе изображений особое внимание уделялось визуальным характеристикам лиминальных пространств, упомянутых ранее. В качестве основного референса использовалась интернет-эстетика Backrooms, для которой характерны однообразные коридорные пространства, жёлтые оттенки, а также ощущение бесконечности и дезориентации.
Примеры изображений, использованных для обучения генеративной модели
Примеры изображений, использованных для обучения генеративной модели
Процесс обучения модели
В начале работы было выполнено подключение облачного хранилища Google Drive для доступа к датасету и сохранения результатов. Также была выведена информация о GPU.
Фрагмент кода
Далее были установлены основные библиотеки, необходимые для работы с генеративными моделями и оптимизации обучения, подключён репозиторий с реализацией метода DreamBooth для Stable Diffusion XL.
Фрагмент кода
На следующем этапе были заданы пути к обучающему датасету и директории для сохранения результатов, определены ключевые параметры обучения. Дополнительно была настроена кодировка UTF-8 для корректной работы с файлами и предотвращения возможных ошибок при обработке данных.
Фрагмент кода
Затем была использована модель BLIP (Bootstrapping Language-Image Pre-training) для автоматической генерации текстовых описаний изображений. Каждое изображение из датасета анализировалось нейросетью, после чего формировалось краткое текстовое описание, сохраняемое в отдельный файл. Данный этап является важным, поскольку Stable Diffusion обучается на связке изображений и текстовых описаний.
Фрагмент кода
После этого была проведена подготовка датасета. Сформирован файл metadata.jsonl и проверена корректность структуры данных. Каждая запись в метаданных содержит путь к изображению и соответствующее текстовое описание.
Фрагмент кода
Основной этап работы заключался в запуске обучения модели с использованием подхода DreamBooth и метода LoRA на базе Stable Diffusion XL 1.0. В процессе обучения задавались параметры, определяющие описание обучаемого стиля, размер изображений, снижение потребления памяти и другие.
Фрагмент кода
После завершения обучения была загружена базовая модель Stable Diffusion XL, к которой были подключены обученные веса LoRa. Дополнительно использовалась улучшенная версия VAE для повышения качества итоговых изображений.
Фрагмент кода
В последующих ячейках осуществлялась генерация изображений с использованием различных текстовых промптов. Задавались параметры, такие как количество шагов генерации и степень соответствия изображения заданному описанию. Варьирование промптов позволило оценить, насколько хорошо модель обобщает стиль и переносит его на разные типы пространств.
Фрагмент кода
Результирующие изображения и их анализ
Анализ полученных генераций показал, что модель наиболее успешно справляется с изображением коридорных пространств. Я предполагаю, это связано с тем, что подобные изображения преобладали в обучающем датасете, благодаря чему модель лучше усвоила их геометрию, перспективу и композиционные особенности.
Результирующие изображения
Результирующие изображения
Сгенерированные коридоры обладают характерной для лиминальных пространств визуальной структурой: повторяемостью архитектурных элементов, выраженной линейной перспективой и отсутствием людей. В изображениях также сохраняется ощущение пустоты и неопределённости, что является важной частью эстетики. При этом композиционная симметрия воспроизводится не во всех случаях и может нарушаться.
Результирующие изображения
Результирующие изображения
Кроме того, модель достаточно точно воспроизводит цветовую палитру обучающего датасета. В сгенерированных изображениях преобладают жёлтые, бежевые и холодные голубовато-зелёные оттенки. Освещение в большинстве случаев также передаётся корректно. Характерный рассеянный свет люминесцентных ламп усиливает ощущение искусственности пространства.
Результирующие изображения
В то же время в результатах можно заметить определённые стилевые различия. В изображениях, выходящих за рамки коридорных пространств (например, в более сложных сценах), визуальная целостность снижается. В таких случаях модель хуже справляется с сохранением композиции и общей логики пространства.
Результирующие изображения
Результирующие изображения
Также можно заметить наличие отдельных артефактов, характерных для генеративных моделей. Например, неестественные переходы поверхностей, искажения геометрии и дефекты деталей. Однако в контексте лиминальных пространств подобные особенности могут восприниматься как часть визуального языка, которая усиливает ощущение нереальности происходящего.
Результирующие изображения
Результирующие изображения
В целом можно сделать вывод, что модель успешно усвоила основные визуальные характеристики выбранной эстетики и способна воспроизводить её в наиболее типичных сценариях. Полученные результаты подтверждают, что даже при относительно небольшом объёме обучающей выборки возможно достичь узнаваемого результата.
Описание применения генеративных моделей
- Stable Diffusion XL 1.0 Цель: базовая генеративная модель, основа для дальнейшего дообучения.
- DreamBooth + LoRA Цель: адаптация базовой модели через дообучение.
- BLIP (Bootstrapping Language-Image Pre-training) Цель: автоматическая генерация текстовых описаний.
- ChatGPT Цель: создание и уточнение текстовых промптов, оптимизация параметров обучения для снижения потребления памяти при работе в облачной среде, генерация нескольких исходных изображений для обучающего датасета.
- Krea AI Цель: генерация нескольких исходных изображений для обучающего датасета.
- Nano Banana Pro Цель: генерация нескольких исходных изображений для обучающего датасета.




