Идея проекта
В данном проекте я дообучаю нейросетевую модель Stable Diffusion XL для воспроизведения авторского визуального стиля, исследующего эстетику постиндустриального одиночества. В основе проекта лежит концепция взаимодействия человека с индустриальным, заброшенным пространством, где тело перестает быть функциональным и становится частью ландшафта и формой, созвучной рельсам, бетону и заброшенным конструкциям. Проект демонстрирует, как современные алгоритмы способны масштабировать узкий авторский стиль на новые, ранее не существовавшие сюжеты, сохраняя атмосферу сталкерского таинства, холодную палитру и специфическую геометрию поз.
Исходные изображения


В качестве исходных изображений я использовала фотографии, подогнанные под формат 1:1, сделанные и отредактированные мной, в которых лучше всего отражено мое видение.








Результат


Итоговая серия работ подтверждает успешную передачу стилевого ядра авторского датасета. Нейросеть точно воспроизвела ключевые характеристики стиля: низкий ключ (low-key lighting), холодную пограничную палитру и специфическую андрогинную пластику героев. Удалось сохранить консистентность визуального языка: даже при смене локаций (от нью-йоркского метро до заброшенного баскетбольного поля) прослеживается характерная ломкость силуэтов и ощущение пустоты пространства.


Визуальный анализ показывает, что модель корректно интерпретировала взаимодействие фигур с промышленной средой. Персонажи не выглядят инородными объектами, а интегрируются в текстуру окружения. В генерациях достигнут баланс между реализмом и мистическим напряжением, что полностью соответствует первоначальной идее проекта о теле как части постиндустриального ландшафта.


Были использованы такие промты как: «Young fashionable people standing in the New York subway, dark atmosphere» «A fashionable girl and a boy at a bus station in an English town, 2000s aesthetic» «Wide shot of a girl band performing music on a roof, urban setting» «A stylish photo of a fashionable girl lying near the railroad tracks, cinematic» «Five children playing basketball on an abandoned court in a deserted area, wide shot» и т. д.


Обучение модели
Для обучения использовалась архитектура Stable Diffusion XL, дообученная методом LoRA (Low-Rank Adaptation) с использованием техники DreamBooth. Обучение проходило в среде Google Colab.
Процесс
Подготовка датасета: 10 авторских фотографий (1:1), очищенных от лишних метаданных.
Создание текстовых описаний для каждого изображения с использованием модели BLIP.
Оптимизация: для работы в условиях ограниченной памяти (бесплатный тариф Colab) применялись методы gradient checkpointing, смешанная точность (fp16) и оптимизатор 8-bit Adam.
Параметры: модель прошла 1500 шагов обучения (steps), что позволило закрепить визуальные особенности стиля без переобучения базовой модели.
Подготовка среды: Установка зависимостей
Загрузка изображений
Обучение
Генерация
Описание применения генеративной модели
В данном проекте искусственный интеллект применялся на нескольких этапах:
Модель Stable Diffusion XL (SDXL) — основная генеративная модель для создания изображений.
Модель BLIP — для автоматической генерации текстовых описаний к исходному датасету.
Модель Gemini — использовалась в качестве ассистента для написания/отладки кода на Python.




