Генерация изображений японских интерьеров на BRND

Идея проекта

Главной идей проекта заключается изучение и обучение генеративных моделей для создания изображений новых вариантов планировок квартир и домов в японском стиле. Целью было создание разных, новых вариантов интерьера квартир в эстетике чего-то наиболее классического и привычного для людей другой культуры, сохраняя особенности Японии.

В роли исходного материала был использован датасет, набор фотографий состоящий из изображений Японских квартир и домов разных сегментов, но заключающие в себе важные культурные особенности, такие как специфическая мебель, двери и стены.

Все фотографии были обработаны:

— Подобраны по культурному сходству (все изображения это снимки из реальных японских жилищ) — Приведены к формату 1:1 — Акцент смещен именно на особенности конкретно японских квартир и домов

Примеры из датасета

Исходный размер 1000x1000

Исходный размер 1069x1069

Исходный размер 1028x1028

Исходный размер 1100x1100

Исходный размер 800x800

Цель

Целью проекта — дообучить предобученную генеративную модель для воспроизведения визуального стиля базового для Японии интерьера.

Для этого также была настроена среда обучение и выполнено само до обучение модели что в последствии привело к генерации новых изображений.

Архитектура модели — Базовая модель: Stable Diffusion XL — Тип модели: диффузионная генеративная модель

Итоговые изображения

Исходный размер 1024x1024

Модель хорошо передает атмосферу японского интерьера и использует все основные культурные особенности планировки, стены, полы, столики. Но также можно заметить что она путается в мелких деталях, например в посуде которая стоит на столе и пуфиках-подушках. А также создает вымышленные иероглифы на декоре.

Получается, что неиросеть хороше передает общие черты классических японских домов, но работает обобщая, исключительно на уровне примерной детализации.

Процесс обучения

Обучение модели выполнялось в среде Google Colab и включало последовательную настройку среды, подготовку данных, дообучение модели и последующую генерацию изображений.

На первом этапе устанавливались необходимые библиотеки (diffusers, transformers, accelerate, peft) далее загружался датасет.

На следующем этапе запускалось дообучение модели с использованием метода LoRA на базе архитектуры Stable Diffusion XL. Обучение осуществлялось на основе текстового промпта, который связывал изображения датасета с определённым стилем.

Обучение выполнялось с использованием графического процессора (GPU), что обеспечивало ускорение вычислений при ограниченных ресурсах.

По завершении обучения загружалась дообученная модель с подключёнными весами LoRA, и генерировались изображения.

Код и референсы

Описание применения генеративной модели

Для лучшей совместимости модели и оптимизации промтов использовался DeepSeek