Обучение нейросети стилю Огата Гэкко на BRND

Концепция проекта

Огата Гэкко (1859–1920) — ключевой художник периода Мэйдзи, чей стиль сформировался на стыке классической гравюры укиё-э, живописи нихонга и западноевропейского реализма. Традиционная японская гравюра укиё-э является распространенным культурным кодом в азиатском регионе.

Стиль активно используется в современной визуальной культуре, включая коммерческие и творческие проекты. Находясь на обмене в Азии, я убедилась в этом лично — элементы укиё-э окружают повседневную жизнь: от оформления кафе и магазинов до крупных рекламных кампаний и музейных экспозиций. Именно благодаря такой актуальности и востребованности эстетики укиё-э для обучения был выбран Огата Гэкко — мастер, чье творчество наиболее полно отражает богатство и разнообразие японской традиции.

Исходные изображения для обучения

Исходный размер 1280x256

Для обучения модели был собран датасет из изображений, представляющих работы автора. Изображения отобраны из коллекции Rijksmuseum. Для каждого объекта была проверена лицензия, и в датасет включены только работы со статусом Public Domain / CC0.

Ссылка на сайт rijksmuseum, откуда был взят материал

Характеристика датасета: объём — 37 изображений, формат — квадратные изображения (1:1), разрешение — от 512×512 пикселей. Содержание: жанровые сцены и повседневная жизнь, природа и пейзажи, история, самураи и героический эпос, «свободные зарисовки» и фантазия. Все изображения были приведены к единому формату и обрезаны до квадратного соотношения сторон.

Исходный размер 3361x1143

Результирующая серия изображений

Развёрнутый комментарий результатов

В процессе генерации изображений внимание уделялось не только обучению модели, но и настройке параметров, влияющих на итоговое качество и визуальный характер результатов. После обучения нейросеть не воспроизводит изображения из датасета напрямую, а формирует обобщённое представление о стиле, выделяя характер линий, цветовые сочетания и композиционные принципы. Благодаря этому стиль (ogata_style) переносится на новые сцены и объекты.

Для обучения был собран датасет из 37 изображений, объединённых общей визуальной логикой. Изображения отличались относительной стилистической однородностью: в них прослеживалась графичность линий, ограниченная цветовая палитра и упрощённые формы. При этом небольшой объём датасета накладывал ограничения: модель в ряде случаев склонна к упрощению деталей и частичной потере сложности форм, особенно в более насыщенных композициях.

Исходный размер 4608x1536

Даже при датасете из 37 изображений модель смогла уловить ключевые особенности визуального языка: графичность линий, устойчивую цветовую палитру и целостность изображения. При этом стиль не копируется буквально, а интерпретируется, что проявляется в вариативности текстур, степени детализации и пластике форм. Это говорит о том, что модель формирует именно обобщённое представление о стиле, а не запоминает отдельные изображения.

Для повышения качества генерации дополнительно настраивались параметры, влияющие на детализацию и точность изображений. Увеличение количества шагов генерации (num_inference_steps) позволяло получать более проработанные и детализированные результаты, тогда как параметр guidance scale регулировал степень соответствия изображения текстовому описанию: при более высоких значениях результат становился точнее, но менее вариативным, а при более низких — наоборот, более свободным. Также использовалась настройка силы влияния обученного слоя (lora_scale), которая позволяла контролировать, насколько выраженным будет стиль: при умеренных значениях стиль выглядел более мягким и гибким, а при высоких — более жёстким и доминирующим.

Также использовался negative prompt для устранения типичных дефектов, таких как размытость, искажения формы, лишние элементы и шум. Это сделало изображения более чёткими и визуально аккуратными.

В процессе генерации было замечено, что модель стабильно реагирует на триггер стиля (ogata_style), однако при сложных сценах может упрощать детали, сохраняя общую стилистику. Это показывает, что нейросеть приоритизирует стиль над точной реалистичностью.

Серия изображений демонстрирует вариативность: различаются композиция, уровень детализации, освещение и цвет. Одни и те же объекты могут интерпретироваться по-разному, с изменением формы и степени стилизации, что подтверждает генеративный характер модели. В ходе работы выяснилось, что детализированные промпты позволяют добиться более точного соответствия изображений заданному стилю.

Несмотря на различия, все изображения сохраняют целостность за счёт единой стилистики, пластики форм и цветовой среды. Таким образом, модель успешно сочетает сохранение визуальной идентичности и вариативность, что соответствует цели проекта.

Описание процесса обучения

Настройка среды — в Google Colab подключен GPU Tesla T4, установлены библиотеки для работы с диффузионными моделями и LoRA-обучения.
Подготовка датасета — загружено 37 изображений, приведены к квадратному формату.
Генерация caption’ов — модель BLIP автоматически описала каждое изображение. К описаниям добавлен триггер-префикс «a drawing in ogata_style, " для привязки стиля к текстовому маркеру.
Обучение LoRA — метод Low-Rank Adaptation позволил дообучить модель Stable Diffusion XL на малом датасете без риска переобучения. Триггер-промпт «a drawing in ogata_style» закрепил ассоциацию между текстовым маркером и визуальным стилем. Обучение завершено за 500 шагов, сохранены LoRA-веса.
Экспорт модели — LoRA-веса загружены на Hugging Face Hub в репозиторий Nastyaaa123/ogata_style_lora.
Генерация — при создании изображений триггер-промпт «a drawing in ogata_style» активирует обученный стиль, позволяя генерировать новые сцены в заданной эстетике.

Ноутбук с кодом

Описание применения генеративной модели

В ходе работы были задействованы следующие инструменты:

Stable Diffusion XL 1.0 (https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0) — обучение генеративной нейросети под стиль ogata_style с использованием метода DreamBooth LoRA.

ChatGPT (https://chatgpt.com/) — генерация идей для серии изображений, проведение визуального анализа полученных изображений, а также использовался на этапе концептуализации проекта.