Проект по обучению нейросетей. «1989» на BRND

Идея проекта

Меня интересовало, может ли передать нейросеть логику памяти как визуальной системы. В качестве исходного материала я использовала кадры 1989 года из фильма моих родителей, который они снимали со своими друзьями, архивные фотографии с VHS-характером: размытые контуры, приглушённые цвета, шум, случайные ракурсы, фрагментарные сцены людей и города. Эти кадры важны для меня как эмоциональные следы прошлого. В этом проекте мне было важно проверить, сможет ли модель не просто копировать исходники, а продолжить их внутреннюю атмосферу и создать новые изображения, которые ощущаются как продолжение того же воспоминания. Я рассматривала генерацию как работу с ностальгией: нейросеть собирает из обрывков прошлого новые сцены, в которых узнаются знакомые интонации времени.

Исходные изображения

Процесс обучения

Для обучения использовался Google Colab и пайплайн DreamBooth LoRA на базе Stable Diffusion XL. Сначала был подготовлен датасет из 10 авторских квадратных изображений из личного фотоархива, после чего фотографии автоматически подгружались из папки проекта на Google Drive и приводились к единому размеру для обучения. Далее в среде были установлены библиотеки diffusers, transformers, accelerate, peft, bitsandbytes и др., а также загружен тренировочный скрипт `train_dreambooth_lora_sdxl.ру из репозитория Hugging Face diffusers.

В качестве базовой модели использовалась stabilityai/stable-diffusion-xl-base-1.0. Обучение запускалось через accelerate launch с параметрами, адаптированными под Colab и датасет: resolution=768, train_batch_size=1, gradient_accumulation_steps=1, learning_rate=1e-4, max_train_steps=300, mixed_precision=fp16 и use_8bit_adam. В качестве instance_prompt использовалась формулировка a photo of vhshero person, analog vhs frame, archive footage, soft focus, low fidelity, а результат обучения сохранялся в виде весов LoRA в папке lora_out на Google Drive.

После завершения обучения полученные LoRA-веса подключались к базовой SDXL-модели через AutoPipelineForText2Image из diffusers. На этапе генерации использовались текстовые промпты с описанием новых сцен в эстетике архивной видеопамяти, а также negative prompt для подавления избыточной фотореалистичности и типичных артефактов. В результате была получена серия новых изображений, продолжающих визуальный язык исходного датасета в ностальгической эстетике.

Итоговая серия

Итоговая серия состоит из генераций, которые продолжают эстетику исходного архива, но не повторяют исходные фотографии буквально. В серии появляются групповые и портретные сцены, городские эпизоды, кадры из транспорта, интерьеры и фрагменты повседневной среды, напоминающие случайные стоп-кадры из советского прошлого. Визуально изображения объединяют размытый фокус, приглушённую палитру, фактуру и эффект архивной съемки.

Вместе эти генерации складываются в единое пространство памяти, где важны эмоциональные следы времени: ностальгия, дистанция, частичная утрата деталей и ощущение «найденного» личного архива.

Ниже представлены промпты, которые сгенерировал мне ChatGPT

Исходный размер 1090x698

Лучше всего модель усвоила общий характер визуального языка: VHS, размытый фокус, приглушённую зелёно-бежевую палитру, ощущение архивного кадра и документальную случайность композиции. В этих изображениях хорошо считывается ключевая для проекта атмосфера памяти и ностальгии, где важен не событийный центр, а состояние времени и дистанции. Также, считав атмосферу и дух советской действительности, неройсеть сгенерировала два изображения-иллюстрации в духе советских плакатов. Одновременно генерации показывают ограничения обучения. В части кадров заметны нестабильность лиц и фигур, упрощения анатомии, локальные деформации машин, архитектуры и мелких объектов и неравномерная детализация в дальних планах. Но эти сбои не разрушают серию: наоборот, они подчеркивают, что модель лучше удерживает общую эмоционально-стилистическую логику, чем точную предметность. В результате серия воспринимается как машинная реконструкция исходных фотографий, где прошлое существует в форме фрагментов, сдвигов и визуальных «провалов» памяти.

Ссылка на датасет и блокнот