Плоский мир и идеальная линия Кацусики Хокусая на BRND

Введение

Современные диффузионные сети обожают объем, фотореализм и сложное освещение. Но что произойдет, если заставить алгоритм забыть про 3D-рендер, реалистичные тени и градиенты, потребовав мыслить категориями плоского деревянного бруска и листа рисовой бумаги?

Данный исследовательский проект посвящен оцифровке стиля Кацусики Хокусая — величайшего мастера японской гравюры укиё-э, автора бессмертной «Большой волны в Канагаве».

Искусство Хокусая — это торжество выразительного, каллиграфического контура и абсолютно плоской (локальной) заливки цветом. Он не рисовал с натуры в западном понимании; он конструировал мир из безупречных линий, где даже бушующая стихия воды превращается в застывший, фрактальный орнамент (знаменитая пена в виде «когтей»).

Обучение генеративной модели на его работах — это экстремальный стресс-тест на отказ от объема. Нейросеть по своей природе постоянно пытается добавить мягкую тень под объект или наложить градиент на небо. Заставить ИИ рисовать мир так, словно изображение было вырезано ножом на доске из вишни, а затем отпечатано в несколько цветов (техника традиционной японской ксилографии) — сложнейшая задача, требующая ювелирного файнтюнинга.

Ниже представлены некоторые работы Кацусики Хокусая, вошедшие в базу данных для обучения искусственного интеллекта.

Техническая реализация (Google Colab и LoRA)

В рамках проекта обучение проводилось в облачной среде Google Colab с использованием метода LoRA (Low-Rank Adaptation). Этот подход позволяет дообучить тяжелую базовую модель (например, Stable Diffusion), обновляя лишь небольшую часть алгоритмов, что делает процесс быстрым и эффективным.

Чтобы сделать процесс наглядным, весь технический этап (пайплайн) разбит на четыре ключевых шага:

Проверка оборудования (Видеокарта),
Подключение датасета и установка программ,
Запуск обучения (Тренировка стиля),
Генерация первой картинки (Инференс).

Генерация и обучение нейросетей требуют мощных видеокарт (GPU). На этом шаге мы инициализируем сервер и проверяем, какой именно вычислительный ресурс выдал нам облачный сервис Google для работы.

Исходный размер 1686x930

Исходный размер 460x98

Мы подключаем диск, на котором лежат отобранные картины художника (датасет), и скачиваем необходимые библиотеки ML (такие как diffusers и accelerate). Это дает нашему коду «инструменты» для работы.

Исходный размер 1348x1116

Это кульминация технического процесса. Здесь мы передаем нейросети команду: «Возьми базовую модель, проанализируй картины в нашей папке и найди в них общие стилевые черты». Процесс идет шаг за шагом (steps), пока нейросеть не выучит уникальный почерк художника, связав его со специальным кодовым словом (триггером).

После завершения обучения мы тестируем результат. Пишем текстовый запрос (промпт), используем выученное кодовое слово, и нейросеть «рисует» совершенно новое изображение в только что освоенном стиле.

Работы Кацусики Хокусая отличаются ярким, узнаваемым стилем, который характеризуется несколькими ключевыми особенностями: • Техника ксилографии: плоские локальные цвета без светотеневых переходов и градиентов. • Выразительный, непрерывный графичный контур, имитирующий рез традиционного гравера. • Ограниченная, но насыщенная цветовая палитра: доминирование берлинской лазури, индиго, кирпично-красного и охры. • Специфическая стилизация стихий: вода, облака и дождь изображаются в виде ритмичных, декоративных паттернов. • Плоская японская перспектива: отсутствие западной точки схода, построение планов один над другим.

Примеры сгенерированных изображений и промпты

Для тестирования модели и раскрытия её потенциала были составлены специальные промпты, проверяющие разные аспекты стиля:

Большая волна: «A massive, stylized blue wave with claw-like white foam crashing over three small wooden boats, Mount Fuji in the background, photo in Japan style, ukiyo-e woodblock print, flat colors.»

Красная Фудзи: «A majestic red volcano at dawn with a clear sky and stylized horizontal clouds, photo in Japan style, traditional Japanese woodblock print, minimalist composition.»

Самурай: «A fierce samurai warrior drawing his katana, wearing intricate traditional armor, photo in Japan style, dynamic pose, bold black outlines, flat local colors.»

Гейша: «An elegant geisha in a heavily patterned floral kimono holding a paper fan, looking over her shoulder, photo in Japan style, delicate facial features, traditional Japanese art.»

Цветение сакуры: «A gnarled, ancient cherry blossom tree with stylized pink petals falling in the wind, Mount Fuji in the distance, photo in Japan style, decorative landscape, woodcut.»

Японский дракон: «A mythical, twisting Japanese dragon flying through stylized swirling clouds, photo in Japan style, dynamic composition, intricate scales, bold ink contour.»

Орёл: «A majestic eagle diving down toward the sea, sharp graphic silhouette, photo in Japan style, meticulous feather details, woodblock print texture.»

Вывод

Эксперимент с оцифровкой классической гравюры Кацусики Хокусая наглядно демонстрирует фундаментальное различие между машинным и человеческим подходом к форме. Современные диффузионные модели великолепно улавливают японскую атмосферу: они безошибочно генерируют гору Фудзи, ветки сакуры и правильную палитру индиго.

Однако там, где дело доходит до логики графического искусства, магия дает сбой. Укиё-э — это искусство осознанных ограничений. Художник должен был мыслить слоями (каждый цвет — отдельная доска) и идеальными контурами. Нейросеть же мыслит пиксельным шумом. Она лишь имитирует внешний вид гравюры, но не понимает физику ее создания.

Этот лонгрид доказывает: машинное обучение — великолепный инструмент для концептуализации, но чистота формы и лаконичная гениальность японского мастера остаются недосягаемым идеалом для алгоритмов.

Применение генеративной модели: • Для генерации промптов текста был использован Claude 4.5 Sonnet.

Ссылка на проект — https://colab.research.google.com/drive/1jQv1dgiLO9mJZaSlNCjkUKpeNcfSiqhm