Обложка сгенерирована при помощи обученной нейросети
Обучение LoRA-модели для генерации изображений в эстетике японской гравюры Кацусики Хокусая
Для обучения была взята серия работ Кацусики Хокусая (самый распространенный псевдоним одного из наиболее известных японских художников направления укиё-э)
В работе используется метод LoRA-дообучения на базе модели Stable Diffusion XL. Исходный набор изображений состоит из 35 работ.
Работы Кацусика Хокусай
Для его работ характерны декоративность, плоскостное цветовое решение, природные мотивы и особая организация пространства.
Работы Кацусика Хокусай
Описание обучения модели
Для обучения модели был подготовлен датасет из 35 изображений с японской гравюрой Кацусики Хокусая. После установки нужных библиотек, для каждого из изображений автоматически создавалось текстовое описание с помощью модели BLIP. Все подписи сохранялись в файл metadata.jsonl, а к описаниям добавлялся стилевой токен hokusai_style.
Обучение проводилось методом DreamBooth LoRA на базе модели Stable Diffusion XL. В ходе обучения модель усваивала связь между токеном hokusai_style и визуальными особенностями датасета: плоскостной композицией, контурной линией, декоративной структурой изображения и природными мотивами.
После завершения обучения полученная LoRA-модель использовалась для генерации новой серии изображений по текстовым промптам.
Результирующая серия изображений
Серия объединена темой пейзажа: в работах повторяются мотивы моря, лодок, мостов, островков суши, облаков и горного силуэта (чаще всего Фудзи). За счёт этого итоговые изображения воспринимаются как единый цикл. При этом разнообразие композиции, масштаба, ритма и состояния природы придают каждой работе индивидуальность.
Модель успешно воспроизвела ключевые особенности выбранного стиля. Прежде всего это организация пространства. Оно строится слоями (передний, средний и дальний план).
Также, отсутствие линейной перспективы, чёткая контурная линия и декоративный характер изображения.
Особенно заметна передача ритма природных форм: волны, облака и линии берега организованы как повторяющиеся графические элементы. В некоторых изображениях доминирует динамика (волны, движение воды), в других — статичность и равновесие (спокойные пейзажи горой вдали)
В проекте использовался ChatGPT 5.2 для решения проблем, возникших во время написания кода и написания промптов.




