Добро пожаловать, Куниёси // Обучение генеративного ИИ на BRND

Идея проекта

В основе моего проекта лежит интерес к современной японской визуальной культуре — к городской среде, современной архитектуре и поп-культурным образам, которые сегодня легко считываются и кажутся знакомыми, формируют целостное представление о Японии в настоящем. Впрочем, это заявление будет верным для нас, современных людей — а что касается вдохновителей всего того, из чего собран образ «страны восходящего солнца»? В рамках проекта я стараюсь выйти на пределы этого привычного взгляда и переосмыслить современные образы глазами одного из важнейших для визуальной культуры Японии человека — Утагавы Куниёси.

Его работы (находящиеся в открытом доступе и не ограниченные авторским правом, что было важно для проекта) используются в качестве основы-датасета для последующих генераций современных образов: от знаменитого перекреста в Шибуе и модниц «гяру» до древних храмов на фоне небоскребов и скоростных поездов «синкансэн».

Мой проект становится попыткой «увидеть всё то, что хорошо знакомо, глазами того, кто стоял у истоков». Нейросеть же выступает как инструмент, позволяющий соединить разные визуальные системы и создать новые изображения, в которых современность интерпретируется через традиционную графическую выразительность.

Прим.: для упрощения оценки итоговых изображений я сопоставляю их с фотографиями японских городов, людей и особенностей быта.

Серия изображений-результатов

1 // промпт: «Tokyo Skytree rising above Tokyo skyline, dramatic clouds and wind»

2 // промпт: «painting in MODERN KUNIYOSHI style»

3 // промпт: «Osaka Castle towering above stone walls and trees»

4 // промпт: «Rainbow Bridge in Tokyo Bay with dramatic ocean waves»

5 // промпт: «Tokyo Station red brick building viewed from dramatic perspective»

6 // промпт: «Kiyomizu-dera temple balcony overlooking Kyoto hills»

7 // промпт: floating torii gate of Itsukushima shrine standing in the sea»

А это, пожалуй, моя любимая генерация (именно поэтому я использовала её в качестве обложки проекта) — на всех изображениях заметно, как «артефакты» современности приобретают вид чего-то мистического, сказочного и потустороннего (т.к. датасет не наделен ни одним схожим кадром или сюжетом), что является правильным, ведь именно так бы Утагава и воспринял, кажется, достопримечательности Японии XXI- го века.

Но именно здесь, на изображении скоростного поезда, эта сказочность прослеживается лучше всего.

8 // промпт: «Shinkansen bullet train racing through Japanese landscape»

9 // промпт: «National Art Center Tokyo curved glass architecture»

10 // промпт: «Tokyo underground metro station interior, train entering the platform»

11 // промпт: «Japanese street lined with glowing vending machines at night»

12 // промпт: «Japanese convenience store on a city street at night»

13 // промпт: «Japanese gyaru fashion girls walking through Shibuya street»

14 // промпт: «Japanese arcade center filled with bright game machines and players»

15 // промпт: «Harajuku street filled with colorful fashion and youth culture»

16 // промпт: «Japanese capsule hotel interior with stacked sleeping pods»

17 // промпт: «Shibuya Crossing in Tokyo filled with crowds crossing the giant scramble intersection»

Работа с кодом

С технической точки зрения мой код включает в себя такие этапы, как:

1 // установка зависимостей и настройка GPU; 2 // загрузка и предобработка датасета с приведением изображений к единому формату; 3 // визуальная проверка данных 4 // автоматическая генерация текстовых описаний с помощью модели BLIP; 5 // очистка видеопамяти; 6 // подготовка структуры датасета и авторизация в Hugging Face; 7 // запуск обучения LoRA на базе Stable Diffusion XL.

Такой пайплайн позволяет не просто «скормить» изображения модели, а сформировать корректную связку «изображение — текст», что критически важно для качества обучения и итогового результата.

Далее происходит обучение модели с использованием LoRA. После завершения обучения веса сохраняются и публикуются, а затем подключаются обратно к базовой модели для генерации изображений. На финальном этапе по заданным текстовым промптам создаются новые визуальные результаты, соответствующие изученному стилю в духе работ Утагавы Куниёси.

Отмечу, что для работы я использовала разные инструменты, а именно:

1 // Stable Diffusion (для обучение генеративного ИИ);

2 // Google Colab (в качестве среды выполнения);

3 // Hugging Face (для получение токена и загрузки полученной модели на сайт);

4 // Chat GPT (для создания сложных элементов кода, проверки и консультирования);

5 // Adobe Illustrator (для графической постобработки скриншотов кода).

Модель Hugging Face Блокнот Google Colab