Я знаю это место. Обучение генИИ на BRND

Идея проекта

«Я знаю это место» — исследование ностальгии и памяти. За основу я взяла свой проект с первого курса — зин «Дворы» и переосмыслила, продолжила его. Название отсылает и к знакомым каждому спальным районам, и к моему возвращению к собственному стилю прошлых лет. В этом проекте ИИ стал соавтором: на основе старых набросков он создает новые дворы — вымышленные, но всё ещё знакомые.

Папка с изображениями

В проекте использовались следующие инструменты:

–– Stable Diffusion — обучение генеративной нейросети под заданный стиль; –– Gemini 3 –– помощь с написанием промтов для генераций; –– Google Colab –– редактирование и выполнение кода, генерация изображений; — Hugging Face — получение токена для обучения нейросети, а также загрузка результата на сайт; –– Figma –– кадрирование иллюстраций, коллажирование; –– Upscayl –– увеличение изображений, улучшение их качества

Исходные иллюстрации

Исходный размер 3212x1042

Часть иллюстраций

Изначальная идея проекта, который я решила переосмыслить «глазами» ИИ, звучит так:

«Дворы — места контрастов: уюта и холодности, грязи и своеобразной красоты. Они обладают своей уникальной притягивающей и, вместе с тем, отталкивающей атмосферой. В каждом дворе прячется множество деталей, придающих им характер… Всё это делает дворы удивительной локацией и вызывает интерес.»

Исходный размер 3777x426

Ключевые элементы стилизации исходных иллюстраций, которые требуется сохранить в дальнейших генерациях:

–– ч/б палитра, контрастность –– неаккуратность линии и общая наивность –– фактурность –– тематика пост-советского пространства дворов

Исходный размер 3212x1042

Часть иллюстраций

Процесс обучения

Подготовка среды

Сначала потребовалось подготовить рабочее окружение и загрузить все необходимые библиотеки: Diffusers для работы с моделями, Accelerate для оптимизации и Bitsandbytes для экономии видеопамяти. Также на этом этапе скачивается специальный скрипт, который «научит» SDXL новому стилю.

Исходный размер 2314x794

Загрузка и проверка данных

Далее изображения для формирования датасета были загружены с компьютера в Google Colab. После этого сформировалась визуальная сетка из картинок, чтобы можно было убедиться в корректности загрузки датасета.

Исходный размер 3777x426

Исходный размер 2411x426

Исходный размер 2316x784

После загрузки фото пришло время создать текстовые описания для каждого кадра. Это важная часть подготовки датасета, выполненная автоматически. С помощью простой команды я вывела список подписей на экран и увидела, что нейросеть достаточно точно распознала детали на иллюстрациях. Это подтвердило: данные считались корректно, и всё готово к самой тренировке.

Исходный размер 2244x756

Авторизация

На этом этапе мной был выполнен вход в систему Hugging Face с помощью токена доступа, чтобы иметь возможность работать с моделями.

Исходный размер 2309x666

Настройка и запуск тренировки

Далее были заданы ключевые параметры обучения: путь к модели SDXL, папка с изображениями и уникальный токен объекта (instance prompt). Само обучение запущено командой accelerate launch с использованием оптимизатора 8-bit Adam для экономии памяти GPU.

Для тренировки, в свою очередь, выбрано оптимальное разрешение 512, выставлен максимальный шаг тренинга на 500, а промежуточный чекпоинт установлен на 250. Благодаря использованию 8-битного оптимизатора Adam и градиентного чекпоинтинга, время обучения сократилось, и процесс занял совсем немного времени

Исходный размер 1414x867

Сохранение модели в Hugging Face; Генерация изображений

В завершение процесса полученная модель была сохранена и экспортирована, чтобы её можно было использовать в дальнейшем. Сразу после этого я приступила к генерации: загрузила обученные веса и создала первые изображения. Результат подтвердил, что нейросеть успешно усвоила новый стиль

Исходный размер 2293x846

Результаты генерации

Промт: «PLACEIK_zine style, а high-contrast ink drawing of a mysterious courtyard»

Генерация / Моя иллюстрация

Получившаяся генерация слабо, но всё же относится к тому, что было изображено на моих иллюстрациях, и это не могло не радовать. Модели удалось сохранить фактуру, ч/б палитру и общее впечатление. Однако меня не устроило, что без контекста в этом изображении сложно распознать заложенную тему. Поэтому я начала двигаться в сторону уточнения запроса.

Промт: «PLACEIK_zine style, a high-contrast ink drawing of a playground in a courtyard surrounded by five-story panel buildings (khrushchevkas). The drawing should show expressive, rough brushstrokes and deep black ink pools, capturing the gritty atmosphere. Include details like a simple metal slide and bare concrete. monochrome»

Генерация / Моя иллюстрация

Уточнение промпта сработало — модель смогла сгенерировать полноценную иллюстрацию, сохранив стилизацию и цвета. Атмосфера и отличительные черты постсоветского пространства также были сохранены. Не хватало лишь чуть большей точности изображения

Исходный размер 1920x623

Две генерации по одному промту, сравнение

Вторая генерация по тому же промпту стала еще ближе к желаемому результату.

Далее я решила попробовать другие промпты для улучшения конечного результата и разнообразия изображений

Промт: «PLACEIK_zine style, a low-angle ink drawing capturing a a tire-swing hanging from a large bare tree branch. High-contrast, rough linework. raw textures, monochrome»

Для уточнения промта в качестве эксперимента я отправила Gemini 3 одну из иллюстраций из датасета и попросила её описать. Так, результат был сформирован в запрос

Генерация / Моя иллюстрация

Однако нейросеть начала отходить от заданного стиля, чем, конечно, расстроила меня. Было принято решение попробовать сразу другой промт.

Промт: «PLACEIK_zine style, close-up of a rubber ball on the ground, background with blurry silhouettes of glass bottles. Minimalist composition, expressive black ink splatters, stark contrast, monochrome, Soviet yard aesthetics»

Генерация / Моя иллюстрация

И вновь модель не совсем правильно сгенерировала иллюстрацию. В этот раз меня не устроила ее фиксация на запросе «minimalist», делающем изображение слишком абстрактным, так что в дальнейшем было решено от него отказаться.

Затем была предпринята попытка написать очень подробный промт.

Первый промт: «PLACEIK_zine style, an extreme low-angle perspective looking upwards towards a narrow corner courtyard. Dark, solid black wash background with crude, expressionist ink drawings of apartment window silhouettes, a TV antenna, and a clothesline, rendered with expressive black ink splatters. Raw textures, rough brushstrokes, high-contrast monochrome»

Генерации

Второй промт: «PLACEIK_zine style, an extreme low-angle perspective looking upwards towards a narrow corner courtyard, a dark black wash background with crude expressionist ink drawings of apartment window silhouettes, a TV antenna, monochrome»

В случае с первым изображением, не считая некоторых неудачных артефактов, генерация удалась, так что я решила немного поменять промт и запустить процесс еще раз.

Во второй раз генерацией я тоже осталась довольна. У модели получилось скопировать и стиль, и атмосферу, и текстуру туши, которую я использовала для рисования исходных изображений. При этом модели удалось скопировать даже допущенную небрежность, не превратив ее в «грязь».

Для попытки улучшения результатов я перенастроила параметры обучения: установила максимум в 1000 шагов с контрольной точкой в 500. Эффективность обновленной модели проверялась серией тестов с разными промптами до достижения наилучшей визуализации

Промт: «PLACEIK_zine style, raw distorted ink sketch of a brutalist apartment building’s dark entrance, naive black marker style, warped perspective, bold messy lines, high-contrast B&W.»

Генерация / Моя иллюстрация

В целом, несмотря на немного излишнюю реалистичность изображения, результат меня порадовал. Так что я напоследок попробовала сгенерировать ещё пару изображений с тем же промтом, уточнив только про бельевые верёвки

Генерации

В процессе работы я отметила следующие тенденции обученной мной модели:

–– она отлично сохраняет текстурность исходных иллюстраций и ч/б палитру, многие генерации выглядят правдоподобно; –– по моему мнению, ей зачастую удаётся передать заложенное настроение, однако некоторые изображения выглядят чересчур мрачно; –– модель склонна к созданию более детализированных работ, из-за чего может страдать разнообразие результатов.

Подводя итог работы с генИИ, я, в целом, осталась довольна частью генераций и могу с ними собрать новый зин, где центральной идеей уже выступает взгляд нейросетей на человеческую память о родных местах.

БЛОКНОТ

Модель на Hugging Face