Обучение генеративной нейросети под свой стиль/объект на BRND

Исходный размер 1294x654

результирующая серия изображений

Обучение генеративной нейросети под стиль Валеры и Наташи Черкашиных Описание идеи проекта Валера и Наташа Черкашины — советские и российско-американские художники, работающие в соавторстве с 1983 года. Их фирменный метод — создание фотоколлажей поверх чёрно-белых серебряно-желатиновых фотоотпечатков: советских монументов, архитектуры, исторических сцен. На фотографическую основу наслаиваются фрагменты газетных полос, рисунки тушью, акварельные пятна, красные и золотые акценты. Результат — визуальный язык, где личная история, советская коллективная память и художественный жест существуют одновременно. Идея проекта: используя механизм prompt-based генерации через Hugging Face Inference API и модель FLUX.1-schnell, проверить, насколько точно текстовое описание стиля («photo collage in CHERKASHIN style») способно воспроизвести устойчивые визуальные признаки творчества Черкашиных без явного обучения на датасете. Проект исследует границу между стилем как набором описуемых свойств и стилем как живым авторским жестом.

Технические детали генерации Модель: black-forest-labs/FLUX.1-schnell — дистиллированная версия FLUX.1-dev, оптимизированная для быстрой генерации (4 шага диффузии вместо 25–50). Работает через Hugging Face Inference API с провайдером hf-inference — бесплатный serverless-эндпоинт. Метод: text-to-image через InferenceClient.text_to_image (). Никакого fine-tuning, LoRA и DreamBooth не применялось — только промпт-инжиниринг. Токен стиля CHERKASHIN style передавался в каждом промпте, что позволило модели активировать связанные концептуальные ассоциации из обучающего корпуса. Параметры промптов: каждый промпт строился по схеме: photo collage in CHERKASHIN style, [субъект], [материальные характеристики], [атмосфера] Дополнительных методов улучшения (upscaling, inpainting, ControlNet) не применялось — серия сгенерирована в один проход.

Итоговая серия: развёрнутый комментарий Серия состоит из 8 изображений, объединённых единым стилистическим токеном. Ниже — разбор каждого изображения и его связи с концепцией.

Исходный размер 1536x1192

#1 — Советский монумент с красными брызгами Башня с красной звездой, вокруг неё — алые пятна, напоминающие взрыв краски или крови. Газетный фон угадывается в нижней части. Из всей серии это изображение наиболее точно попадает в Черкашинский канон: контраст чёрно-белой архитектуры с агрессивными красными акцентами — прямая цитата их серии «Конец эпохи». Модель воспроизвела ключевой приём: цвет как вторжение в монохромную фотографию. #2 — Бронзовый солдат Фигура в шлеме на тёмном фоне, строгая монохромная гамма. Здесь модель передала «скульптурность» Черкашинских персонажей — тяжёлые, отлитые, несущие груз истории. Газетного слоя нет, но силуэтный монументализм — точная характеристика стиля. #3 — Толпа с газетными заголовками Наиболее «коллажный» образ серии: архитектурный фон, поверх которого буквально наклеены газетные полосы с кириллическими заголовками. Это прямое воспроизведение техники Черкашиных — документальный слой поверх визуального. Модель корректно интерпретировала слово «collage» в буквальном смысле. #4 — Женщина с золотыми крыльями Портрет женщины в платке, крылья выполнены в красно-золотой гамме с орнаментальной детализацией. Отсылка к Черкашинской серии с ангелами и фигурами с крыльями — «LitvaGorizont», «LitvaVertik» из датасета ноутбука. Модель переложила этот образ в более декоративный, иконографический регистр: ближе к русской религиозной живописи, чем к советскому коллажу, что создаёт интересное смещение. #5 — Портреты политиков Два мужских портрета в очках, наложенных на газетные страницы с латинскими заголовками. Из всей серии — самое «лицевое» изображение, отсылающее к Черкашинским сериям о власти и коллективной памяти. Газетный фон читается отчётливо, типографика создаёт документальный эффект. #6 — Всадник-памятник Спокойная тёплая гамма, памятник на фоне неба — наименее «Черкашинское» изображение серии: нет газетных слоёв, нет красных акцентов, стиль смещается в направлении реалистической фотографии. Это показательный пример того, как модель «теряет» стиль при нейтральном субъекте: конный памятник без дополнительных драматических дескрипторов генерируется в базовом регистре.

Исходный размер 1012x1200

#7 — Здание с красным баннером Фасад советского здания, красный горизонтальный баннер с белым текстом «CHERRSSHI» — искажённым именем художников. Силуэты людей внизу. Модель буквально встроила имя-токен в визуальный ряд, интерпретировав «CHERKASHIN style» как название институции или лозунг. Это интересный артефакт: нейросеть «не знает», что CHERKASHIN — имя автора, и читает его как текстовый элемент коллажа. #8 — Фонтан со статуями Золотые скульптуры фонтана, классическая архитектура на заднем плане. Богатая детализация, торжественная гамма — ближе к парадному советскому стилю 1950-х, чем к художественному коллажу. Ещё один пример «выхода из стиля» при выборе нейтрального монументального субъекта.

Какие элементы стиля удалось передать Передано точно: Чёрно-белая монохромная основа с цветовыми вторжениями

Красные пятна и акценты как смысловой и эмоциональный маркер

Газетные слои как «документальная кожа» изображения

Монументальные человеческие фигуры — скульптурные, тяжёлые

Золотые декоративные детали

Передано частично: Техника ретуши поверх фотографии — модель имитирует её через текстуру, но не воспроизводит графический жест руки

Советская архитектурная эстетика — угадывается, но не всегда доминирует

Не передано: Ручные рисунки красным карандашом поверх фото — уникальный авторский приём Черкашиных, недостижимый без fine-tuning

Точная фактура желатинового отпечатка — серебристое зерно аналоговой фотографии

Концептуальная кадрировка «стоп-кадра» из серии

Визуальный анализ: вариации внутри серии Серия распадается на три группы по степени соответствия стилю: Высокое соответствие (

1,

3, #5): газетные слои, красные акценты, монохром — все три визуальных признака присутствуют одновременно. Именно эти изображения наиболее точно воспроизводят Черкашинский метод. Среднее соответствие (

2,

7): один-два признака стиля присутствуют, но общая композиция смещается — в иконографию (

4), в абстракцию (

7), в монументализм без коллажного слоя (

2). Слабое соответствие (

6,

8): стиль практически теряется, изображения тяготеют к базовой генерации «реалистического памятника». Это происходит, когда субъект промпта достаточно конкретен сам по себе и вытесняет стилистический токен.

Исходный размер 608x858

Как результаты соответствуют первоначальной идее Проект подтвердил центральный тезис: стиль как текстовое описание работает, но работает неравномерно. Модель FLUX.1-schnell воспроизводит Черкашинский визуальный язык там, где он совпадает с устойчивыми культурными клише («советский монумент + газета + красный цвет»), и теряет его там, где требуется тонкий авторский жест — ручная ретушь, конкретный ракурс, специфическая фактура материала. Для полноценного воспроизведения стиля — с сохранением авторской специфики в каждом из 8 изображений — необходимо обучение LoRA на датасете из 30–50 оригинальных работ, как описано в исходном ноутбуке SDXL_DreamBooth_LoRA_Colab.ipynb. Текущая серия является доказательством концепции и наглядно показывает, где заканчивается промпт-инжиниринг и начинается необходимость fine-tuning.

Использование ГенИИ в проекте В проекте использованы следующие инструменты генеративного ИИ: FLUX.1-schnell (black-forest-labs) — генерация итоговой серии изображений

Perplexity (Comet) — формулировка концепции проекта, написание экспликации и визуального анализа, структурирование ноутбука, подбор промптов для серии, техническая поддержка выполнения кода в Google Colab

Ноутбук