Концепция проекта


Огата Гэкко (1859–1920) — ключевой художник периода Мэйдзи, чей стиль сформировался на стыке классической гравюры укиё-э, живописи нихонга и западноевропейского реализма. Традиционная японская гравюра укиё-э является распространенным культурным кодом в азиатском регионе.
Стиль активно используется в современной визуальной культуре, включая коммерческие и творческие проекты. Находясь на обмене в Азии, я убедилась в этом лично — элементы укиё-э окружают повседневную жизнь: от оформления кафе и магазинов до крупных рекламных кампаний и музейных экспозиций. Именно благодаря такой актуальности и востребованности эстетики укиё-э для обучения был выбран Огата Гэкко — мастер, чье творчество наиболее полно отражает богатство и разнообразие японской традиции.

Для обучения модели был собран датасет из изображений, представляющих работы автора. Изображения отобраны из коллекции Rijksmuseum. Для каждого объекта была проверена лицензия, и в датасет включены только работы со статусом Public Domain / CC0.


Характеристика датасета: объём — 37 изображений, формат — квадратные изображения (1:1), разрешение — от 512×512 пикселей. Содержание: жанровые сцены и повседневная жизнь, природа и пейзажи, история, самураи и героический эпос, «свободные зарисовки» и фантазия. Все изображения были приведены к единому формату и обрезаны до квадратного соотношения сторон.
Результирующая серия изображений














Развёрнутый комментарий результатов
В процессе генерации изображений внимание уделялось не только обучению модели, но и настройке параметров, влияющих на итоговое качество и визуальный характер результатов. После обучения нейросеть не воспроизводит изображения из датасета напрямую, а формирует обобщённое представление о стиле, выделяя характер линий, цветовые сочетания и композиционные принципы. Благодаря этому стиль (ogata_style) переносится на новые сцены и объекты.
Для обучения был собран датасет из 37 изображений, объединённых общей визуальной логикой. Изображения отличались относительной стилистической однородностью: в них прослеживалась графичность линий, ограниченная цветовая палитра и упрощённые формы. При этом небольшой объём датасета накладывал ограничения: модель в ряде случаев склонна к упрощению деталей и частичной потере сложности форм, особенно в более насыщенных композициях.
Даже при датасете из 37 изображений модель смогла уловить ключевые особенности визуального языка: графичность линий, устойчивую цветовую палитру и целостность изображения. При этом стиль не копируется буквально, а интерпретируется, что проявляется в вариативности текстур, степени детализации и пластике форм. Это говорит о том, что модель формирует именно обобщённое представление о стиле, а не запоминает отдельные изображения.
Для повышения качества генерации дополнительно настраивались параметры, влияющие на детализацию и точность изображений. Увеличение количества шагов генерации (num_inference_steps) позволяло получать более проработанные и детализированные результаты, тогда как параметр guidance scale регулировал степень соответствия изображения текстовому описанию: при более высоких значениях результат становился точнее, но менее вариативным, а при более низких — наоборот, более свободным. Также использовалась настройка силы влияния обученного слоя (lora_scale), которая позволяла контролировать, насколько выраженным будет стиль: при умеренных значениях стиль выглядел более мягким и гибким, а при высоких — более жёстким и доминирующим.


Также использовался negative prompt для устранения типичных дефектов, таких как размытость, искажения формы, лишние элементы и шум. Это сделало изображения более чёткими и визуально аккуратными.
В процессе генерации было замечено, что модель стабильно реагирует на триггер стиля (ogata_style), однако при сложных сценах может упрощать детали, сохраняя общую стилистику. Это показывает, что нейросеть приоритизирует стиль над точной реалистичностью.


Серия изображений демонстрирует вариативность: различаются композиция, уровень детализации, освещение и цвет. Одни и те же объекты могут интерпретироваться по-разному, с изменением формы и степени стилизации, что подтверждает генеративный характер модели. В ходе работы выяснилось, что детализированные промпты позволяют добиться более точного соответствия изображений заданному стилю.
Несмотря на различия, все изображения сохраняют целостность за счёт единой стилистики, пластики форм и цветовой среды. Таким образом, модель успешно сочетает сохранение визуальной идентичности и вариативность, что соответствует цели проекта.
Описание процесса обучения
- Настройка среды — в Google Colab подключен GPU Tesla T4, установлены библиотеки для работы с диффузионными моделями и LoRA-обучения.
- Подготовка датасета — загружено 37 изображений, приведены к квадратному формату.
- Генерация caption’ов — модель BLIP автоматически описала каждое изображение. К описаниям добавлен триггер-префикс «a drawing in ogata_style, " для привязки стиля к текстовому маркеру.
- Обучение LoRA — метод Low-Rank Adaptation позволил дообучить модель Stable Diffusion XL на малом датасете без риска переобучения. Триггер-промпт «a drawing in ogata_style» закрепил ассоциацию между текстовым маркером и визуальным стилем. Обучение завершено за 500 шагов, сохранены LoRA-веса.
- Экспорт модели — LoRA-веса загружены на Hugging Face Hub в репозиторий Nastyaaa123/ogata_style_lora.
- Генерация — при создании изображений триггер-промпт «a drawing in ogata_style» активирует обученный стиль, позволяя генерировать новые сцены в заданной эстетике.
Описание применения генеративной модели
В ходе работы были задействованы следующие инструменты:
Stable Diffusion XL 1.0 (https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0) — обучение генеративной нейросети под стиль ogata_style с использованием метода DreamBooth LoRA.
ChatGPT (https://chatgpt.com/) — генерация идей для серии изображений, проведение визуального анализа полученных изображений, а также использовался на этапе концептуализации проекта.




