Конструктивизм. Обучение нейросети. на BRND

Описание

Проект посвящён исследованию того, как генеративная модель может воспроизводить визуальный язык конструктивизма.

Конструктивизм выбран потому что у него очень жесткие визуальные правила: два-три цвета, острая геометрия, диагонали, фотомонтаж.

Стиль узнается мгновенно, и при этом его можно проверить на глаз — модель либо научилась делать красно-черные плакаты с клиньями и ракурсами, либо нет. Это делает его удобной темой для дообучения LoRA.

Цель проекта — проверить, способна ли модель воспроизводить не только отдельные элементы стиля, но и его композиционную логику.

Для обучения был собран датасет из конструктивистских плакатов и графики.

Основные характеристики: — красно-чёрно-белая палитра — диагональные композиции — геометрические формы — интеграция текста — элементы фотомонтажа

Эти признаки формируют узнаваемый визуальный язык конструктивизма и стали основой обучения.

Процесс

Работа велась в Google Colab с использованием DreamBooth LoRA поверх Stable Diffusion XL. Сначала через Bing Image Search был собран датасет из нескольких десятков плакатов советского конструктивизма — работы Родченко, Лисицкого, Клуциса и других авторов, все в общественном достоянии.

Каждое изображение получило автоматическую подпись от модели BLIP, к которой добавлялся стилевой маркер CONSTRUCTIVIST. Так модель обучалась не просто на наборе картинок, а на связке визуальных признаков с конкретным ключевым словом. Само обучение шло в формате LoRA, то есть базовая модель не переписывалась целиком, а получала небольшой набор дополнительных весов, отвечающих за новый стиль.

После обучения эти веса подключались обратно к SDXL, и начиналась генерация. Промпты подбирались так, чтобы проверить разные аспекты стиля: палитру, диагональные композиции, фотомонтаж, геометрическое деление кадра.

Нейросеть не копирует конкретные плакаты, а воспроизводит их общую логику и превращает в новые композиции

Исходный размер 1208x880

Процесс скачивания датасета с помощью Bing

Исходный размер 1354x562

Добавление подписей к картинкам с помощью Blip

Исходный размер 1374x780

Запуск обучения

Исходный размер 1564x1164

Генерация одного изображения

Итоговая серия

Исходный размер 1280x767

Была получена серия из изображений, включающая: сцены (космос, наука, индустрия), абстрактные композиции, изображения с фигурами

Несмотря на различие сюжетов, серия сохраняет единую визуальную систему.

Модель уверенно держит красно-черно-белую палитру, почти не уходит в посторонние цвета
Диагональные композиции и геометрическое деление кадра получаются стабильно, это самый заметный эффект
Фотомонтажный стиль передается частично — модель смешивает графику и фото-элементы, но не так резко как в оригиналах
Типографика ожидаемо слабая, диффузионные модели плохо генерируют текст

«Ученый с микроскопом» без LoRA / c LoRA

«Рука робота» без LoRA / c LoRA

Сравнение с базовой SDXL показывает что без LoRA модель делает обобщенную «плакатность», а с LoRA появляются конкретные конструктивистские приемы (клинья, ракурсы снизу, плоские заливки)

Вывод

Модель успешно усваивает базовые признаки конструктивизма — цвет и композицию, но хуже справляется с типографикой и сложным фотомонтажем.

В результате создаётся не копия стиля, а его интерпретация — серия изображений, сохраняющая узнаваемую эстетику, но формирующая новые композиции.

Использование ИИ

В рамках проекта использовались три модели. Основной стала Stable Diffusion XL с дообучением через DreamBooth LoRA — она применялась для обучения на датасете конструктивистских плакатов и последующей генерации итоговой серии изображений. Кроме того, для автоматического описания изображений датасета использовалась модель BLIP, которая генерировала текстовые подписи к каждому плакату.

Дополнительно использовался Claude Code, который помогал в написании и отладке кода, связанного с собиранием и обработкой датасета для ноутбука и формулировке/проверке промптов для генерации.

Ноутбук с кодом