Идея проекта
В основе моего проекта лежит интерес к современной японской визуальной культуре — к городской среде, современной архитектуре и поп-культурным образам, которые сегодня легко считываются и кажутся знакомыми, формируют целостное представление о Японии в настоящем. Впрочем, это заявление будет верным для нас, современных людей — а что касается вдохновителей всего того, из чего собран образ «страны восходящего солнца»? В рамках проекта я стараюсь выйти на пределы этого привычного взгляда и переосмыслить современные образы глазами одного из важнейших для визуальной культуры Японии человека — Утагавы Куниёси.
Его работы (находящиеся в открытом доступе и не ограниченные авторским правом, что было важно для проекта) используются в качестве основы-датасета для последующих генераций современных образов: от знаменитого перекреста в Шибуе и модниц «гяру» до древних храмов на фоне небоскребов и скоростных поездов «синкансэн».
Мой проект становится попыткой «увидеть всё то, что хорошо знакомо, глазами того, кто стоял у истоков». Нейросеть же выступает как инструмент, позволяющий соединить разные визуальные системы и создать новые изображения, в которых современность интерпретируется через традиционную графическую выразительность.
Прим.: для упрощения оценки итоговых изображений я сопоставляю их с фотографиями японских городов, людей и особенностей быта.
Серия изображений-результатов
1 // промпт: «Tokyo Skytree rising above Tokyo skyline, dramatic clouds and wind»
2 // промпт: «painting in MODERN KUNIYOSHI style»
3 // промпт: «Osaka Castle towering above stone walls and trees»
4 // промпт: «Rainbow Bridge in Tokyo Bay with dramatic ocean waves»
5 // промпт: «Tokyo Station red brick building viewed from dramatic perspective»
6 // промпт: «Kiyomizu-dera temple balcony overlooking Kyoto hills»
7 // промпт: floating torii gate of Itsukushima shrine standing in the sea»
А это, пожалуй, моя любимая генерация (именно поэтому я использовала её в качестве обложки проекта) — на всех изображениях заметно, как «артефакты» современности приобретают вид чего-то мистического, сказочного и потустороннего (т.к. датасет не наделен ни одним схожим кадром или сюжетом), что является правильным, ведь именно так бы Утагава и воспринял, кажется, достопримечательности Японии XXI- го века.
Но именно здесь, на изображении скоростного поезда, эта сказочность прослеживается лучше всего.
8 // промпт: «Shinkansen bullet train racing through Japanese landscape»
9 // промпт: «National Art Center Tokyo curved glass architecture»
10 // промпт: «Tokyo underground metro station interior, train entering the platform»
11 // промпт: «Japanese street lined with glowing vending machines at night»
12 // промпт: «Japanese convenience store on a city street at night»
13 // промпт: «Japanese gyaru fashion girls walking through Shibuya street»
14 // промпт: «Japanese arcade center filled with bright game machines and players»
15 // промпт: «Harajuku street filled with colorful fashion and youth culture»
16 // промпт: «Japanese capsule hotel interior with stacked sleeping pods»
17 // промпт: «Shibuya Crossing in Tokyo filled with crowds crossing the giant scramble intersection»
Работа с кодом
С технической точки зрения мой код включает в себя такие этапы, как:
1 // установка зависимостей и настройка GPU; 2 // загрузка и предобработка датасета с приведением изображений к единому формату; 3 // визуальная проверка данных 4 // автоматическая генерация текстовых описаний с помощью модели BLIP; 5 // очистка видеопамяти; 6 // подготовка структуры датасета и авторизация в Hugging Face; 7 // запуск обучения LoRA на базе Stable Diffusion XL.
Такой пайплайн позволяет не просто «скормить» изображения модели, а сформировать корректную связку «изображение — текст», что критически важно для качества обучения и итогового результата.
Далее происходит обучение модели с использованием LoRA. После завершения обучения веса сохраняются и публикуются, а затем подключаются обратно к базовой модели для генерации изображений. На финальном этапе по заданным текстовым промптам создаются новые визуальные результаты, соответствующие изученному стилю в духе работ Утагавы Куниёси.
Отмечу, что для работы я использовала разные инструменты, а именно:
1 // Stable Diffusion (для обучение генеративного ИИ);
2 // Google Colab (в качестве среды выполнения);
3 // Hugging Face (для получение токена и загрузки полученной модели на сайт);
4 // Chat GPT (для создания сложных элементов кода, проверки и консультирования);
5 // Adobe Illustrator (для графической постобработки скриншотов кода).




