LoRA-адаптация SDXL под стиль укиё-э на BRND

Задача

Задача проекта — обучить LoRA для модели Stable Diffusion XL, ориентированный на стиль укиё-э. Данный стиль был выбран благодаря своей выразительности, разнообразию сюжетов и характерным художественным приёмам, которые представляют интерес для исследования возможностей генеративных моделей. Без специализированного дообучения базовая SDXL воспроизводит укиё-э лишь приблизительно, часто смешивая его с другими эстетиками (в частности, аниме или современным цифровым искусством), что не позволяет добиться аутентичной передачи особенностей японской гравюры периода Эдо.

Все изображения были взяты с сайта https://www.metmuseum.org/ и распространяются по лицензии CC0 https://www.metmuseum.org/hubs/open-access

Исходные изображения

Ниже по паре изображений из каждой категории.

Почти все изображения были обрезаны под пропорции 1:1, чтобы максимально соответсветсовать правилам генерации, однако немного не точные пропорции не страшны, важно, чтобы не было слишком большой разницы.

Подготовка к тренировке Lora

Все изображения были качественно отобраны, обрезаны или сжаты, чтобы соответсвовать правилам генерации.

Укиё-э имеет множество стилей, в данном случае будут использоваться следующие стили: бидзин-га, фукей-га, фузоку-га, качо-га, якуша-э, йокаи-э. Всего было собрано 68 изображений.

В качестве триггер слов мы будем использовать: ukyoe123, [категория], основной промпт, [пост префикс (japanese woodblock print и прочее)]

Кратко про стили:

Бидзин-га — изображения красивых женщин, чаще всего гейш, куртизанок или горожанок. В таких работах особое внимание уделяется позам, одежде и декоративным деталям.

Фукей-га — пейзажи, изображающие природу, дороги, горы и известные места. Эти работы формируют характерное представление о пространстве и композиции в укиё-э.

Фузоку-га — сцены повседневной жизни, показывающие занятия, праздники и бытовые моменты жителей эпохи Эдо.

Качо-га — изображения цветов, растений и птиц, отличающиеся декоративностью и вниманием к природным формам.

Якуша-э — портреты актёров театра кабуки, передающие характерные позы и театральную выразительность.

Йокаи-э — изображения мифологических существ и духов японского фольклора.

Эти категории были выбраны потому, что вместе они охватывают основные сюжеты укиё-э. Такое разнообразие позволяет модели лучше усвоить характерные элементы стиля и применять их в разных визуальных сценах.

Для формирования текстовых описаний изображений использовалась модель автоматического описания изображений BLIP. Она позволяет автоматически генерировать базовые подписи, описывающие содержимое изображения. Автоматическое описание изображений использовалось в качестве исходного материала.

Однако автоматические описания часто оказываются слишком общими или не отражают стилистические особенности изображений. По этой причине все описания дополнительно редактировались вручную. В процессе ручной корректировки уточнялись элементы композиции, персонажи, объекты сцены и стилистические признаки, характерные для стиля Укиё-э.

Для обучения LoRA использовалась стандартная конфигурация, адаптированная под мои данные и параметры. Обучение проводилось на 6000 шагах, что позволило модели последовательно усвоить характерные особенности выбранного художественного направления. Основная скорость обучения (learning rate) была установлена на 0.00008 для всей модели.

Поскольку исходный набор содержал всего 68 изображений, для обучения Lora каждый файл был вручную продублирован 4 раза, всего 272 изображения. Это позволило увеличить количество примеров и стабилизировать процесс усвоения стиля при ограниченном объёме данных.

Результат

Правила генерации:

Для генераций изображения с LoRA и без используется один и тот же seed, промпт и модель.

Не используется никаких дополнительных техник генерации изображений, дополнительных Lora и прочего. используется только базовая модель Stable Diffusion XL и промпт.

Это нужно для того, чтобы сделать максимально честные выводы, насколько хорошо получилась Lora.

Слева — изображения без LoRA. Справа — изображения с LoRA, 0.7-0.8 сила.

«ukyoe123, bijin-ga, beautiful courtesan sitting by a low table writing a letter, intricate updo with golden hairpins, luxurious layered kimono in deep indigo and crimson, calm focused gaze, tatami mat floor, soft lantern light, japanese woodblock print, stylized forms, traditional limited palette»

«ukyoe123, bijin-ga, elegant young woman, portrait, delicate face with subtle blush, flowing silk kimono with floral embroidery, gentle expression, japanese woodblock print, flat colors, bold black outlines, edo period style»

«ukyoe123, fukei-ga, golden sunset behind a solitary ancient pine on rocky outcrop, fiery orange sky fading to deep purple, long shadows across rugged stone, calm sea far below, japanese woodblock print, warm-to-cool color transition, stylized pine needles, expansive empty composition»

«ukyoe123, fukei-ga, full moon rising over tranquil lotus pond at night, silver moonlight on water lily pads, perfect circular reflection, distant temple silhouette barely visible, japanese woodblock print, cool silver-blue tones, large dark empty areas, serene and meditative»

«ukyoe123, fuzoku-ga, lively summer festival at night, crowd of people in yukata carrying lanterns and fans, fireworks exploding overhead, food stalls and dancers, dynamic composition, japanese woodblock print, bright contrasting colors, bold outlines»

«ukyoe123, fuzoku-ga, summer evening firefly viewing by a quiet stream, six or seven people in light yukata sitting along the bank with lanterns, some pointing at glowing fireflies above water, soft reflections in stream, dark green foliage and starry sky, peaceful and magical mood, japanese woodblock print, cool green-blue palette, flat shading, large empty foreground»

«ukyoe123, kacho-ga, two elegant cranes standing side by side in shallow water among tall lotus leaves, soft pink lotus flowers in bloom, calm ripples spreading outward, morning mist, japanese woodblock print, delicate pastel palette, fine detailed feathers and petals, serene harmony, flat color areas»

«ukyoe123, kacho-ga, cluster of pale pink cherry blossoms in full bloom on thin branches, soft scattered petals drifting downward, gentle spring light, large open white space, japanese woodblock print, delicate pastel pinks and greens, fine black outlines, serene simplicity»

«ukyoe123, kacho-ga, dragonfly hovering above blooming iris flowers by a garden pond, iridescent wings catching light, deep purple and yellow iris petals, dew drops on leaves, japanese woodblock print, fresh spring palette, intricate wing veins, delicate transparency»

«ukyoe123, yakusha-e, stern half-body portrait of a veteran kabuki actor as a loyal retainer, furrowed brow, graying beard, traditional male makeup, focused gaze, rich brocade costume collar visible, japanese woodblock print, deep earthy colors, intense expression, clean composition»

«ukyoe123, yakusha-e, full-body dynamic pose of a kabuki actor in aragoto style, exaggerated stance, flowing robes billowing, fierce kumadori makeup, powerful legs apart, japanese woodblock print, bold red-black-white contrast, dramatic diagonal compositions»

«ukyoe123, yokai-e, long-haired female yurei ghost floating above a misty graveyard, pale white face half-hidden by disheveled black hair, tattered burial kimono trailing downward, no feet visible, faint blue moonlight, japanese woodblock print, cold desaturated tones, haunting stillness, large empty foreground»

«ukyoe123, yurei-e, child ghost standing alone in snowy bamboo grove at night, small figure in white, large staring eyes, snowflakes falling, lonely and unsettling mood, japanese woodblock print, high contrast, minimalist composition»

Все изображения были сгенерированы в интерфейсе ComfyUI с использованием базовой SDXL и встроенного refiner. Генерация проводилась с 25 шагами до refiner и 30 шагами общими, CFG scale 8, в качестве сэмплера использовался Euler a.

Это типичный пользовательский пайплайн для Stable Diffusion XL с использованием base + refiner.

В итоговой серии представлены изображения, сгенерированные с использованием обученной LoRA и без неё при одинаковых текстовых запросах и seed. Такое сравнение позволяет наглядно оценить влияние обученной модели на визуальный результат. Основной задачей проекта было воспроизведение характерных особенностей стиля Укиё-э. В изображениях, полученных с применением LoRA, заметны типичные признаки этого направления: выраженная контурная линия, более декоративная цветовая палитра и композиции, напоминающие традиционные японские гравюры. Без применения LoRA изображения сохраняют общий стиль базовой генеративной модели, часто уходя в аниме-стиль и значительно меньше соответствуют эстетике укиё-э.

Поскольку целью было создание универсальной LoRA, способной работать с разными типами композиций и сюжетов в рамках укиё-э, в обучении использовались не только основной триггер ukyoe123, но и дополнительные триггер-слова. Среди них — portrait, full body для контроля масштаба и типа кадра, а также слова, соответствующие традиционным категориям укиё-э (описанным в начале). Для каждой группы изображений из определённой категории добавлялся свой характерный триггер, например: bijin-ga для изображений красавиц, yakusha-e для театральных портретов актёров кабуки и т. д. Таким образом данная LoRA является универсальный и обхватывает большую часть Укиё-э, а не только лишь одного художника или жанр.

В то же время в некоторых случаях наблюдаются ошибки в генерации человеческих конечностей, а также сложности при изображении сцен с большим количеством персонажей. Подобные артефакты являются распространённой проблемой базовой модели Stable Diffusion XL и связаны с особенностями её архитектуры и обучающих данных. Таким образом, данные ограничения не являются следствием обучения LoRA, а отражают известные ограничения исходной генеративной модели.

Следует отметить, что генерация выполнялась без применения дополнительных методов постобработки или улучшения изображений. Итоговые результаты отражают прямой вывод генеративной модели на основе текстового запроса и обученной LoRA.

Ссылка на Jupiter Notebook

https://drive.google.com/file/d/1XcJv77CYqJZY9owCGMX78B7gRajEAZ1u/view?usp=share_link

https://colab.research.google.com/drive/1XcJv77CYqJZY9owCGMX78B7gRajEAZ1u

Описание применения генеративной модели

Для подготовки текста и структурирования отчёта использовался искусственный интеллект Grok AI. Модель применялась с целью упрощения формулировок и систематизации информации о процессе обучения LoRA. https://www.grok.ai/