Кирилл Кто. Генерация изображений при помощи нейросети Stable Diffusion на BRND

Описание идеи

В рамках финального проекта было необходимо дообучить нейросеть Stable Diffusion самостоятельно генерировать изображения в заданном стиле.

Было принято решение для стиля использовать работы современного художника Кирилл Кто (Лебедев).

Художник активно работает с цветами. Оформляя свои работы в неком цветном детском визуале. Зачастую используются надписи с социальными, абсурдными и юмористическими надписями.

На примере 156 изображений удалось дообучить нейросеть генерировать новые изображения в данном стиле.

Примеры из Dataset’a

Результат

Окраина Москвы. Влияние стиля от 50% до 100%

Рассмотрим как будет изменяться изображение с использованием различной доли стиля от Lora модели. Так как художник пишет свои работы в достаточно абстрактном формате, мы видим как с увеличением влияния стиля пропадают узнаваемые образы и все уходит в больший сюреализм.

Елка во временах года. Лето — Осень — Зима — Весна

Рассмотрим времена года. У автора часто встречается тема ели. Визуальный образ вечнозеленого дерева вчтречается на многих его работах.

Давайте создадим цикл произведений с елью с различными состояниями в разные времена года. А также дабавим в промт ассоцирующую эмоцию, чтобы сделать изображения более близкими к постмодернистким решениями автора.

Описание процесса дообучения

Подготовка Окружение: Google colab. Библиотеки: Были установлены diffusers, transformers, accelerate. также установлены open-cv, requests для парсинга изображений. Установлен основной фремворк torch и сопутсвующие зависимости

Данные Датасет: Использованы изображения современного росссийского художника Кирилл Кто. Разметка: Генерация описания «image in KIRILL KTO style».

Обучение Модель: Дообучение SDXL 1.0 + LoRA. Параметры: Разрешение изображений: 512 (исходные изображения были резайснуты через open-cv) Batch size: 2 (на вход модели за один шаг передается тензор из 2 изображений) Шагов обучения: 500.

В процессе генерации изображений задавался определенный промпт. (prompt = «image in KIRILL KTO style»)

Результат Выход: LoRA-адаптеры сохранены в папку kirillkto_LoRA. Публикация: Модель загружена в Hugging Face Hub в репозиторий

Во время работы над проектом использовалась только Stable Diffusion.

Папка с кодом и датасетом

https://drive.google.com/drive/folders/1PGUBPzHU8-zIsBXVqQ0zHNO08klpr1Oz?usp=sharing