Описание идеи
В рамках финального проекта было необходимо дообучить нейросеть Stable Diffusion самостоятельно генерировать изображения в заданном стиле.
Было принято решение для стиля использовать работы современного художника Кирилл Кто (Лебедев).
Художник активно работает с цветами. Оформляя свои работы в неком цветном детском визуале. Зачастую используются надписи с социальными, абсурдными и юмористическими надписями.
На примере 156 изображений удалось дообучить нейросеть генерировать новые изображения в данном стиле.
Примеры из Dataset’a
Результат
Окраина Москвы. Влияние стиля от 50% до 100%
Рассмотрим как будет изменяться изображение с использованием различной доли стиля от Lora модели. Так как художник пишет свои работы в достаточно абстрактном формате, мы видим как с увеличением влияния стиля пропадают узнаваемые образы и все уходит в больший сюреализм.
Елка во временах года. Лето — Осень — Зима — Весна
Рассмотрим времена года. У автора часто встречается тема ели. Визуальный образ вечнозеленого дерева вчтречается на многих его работах.
Давайте создадим цикл произведений с елью с различными состояниями в разные времена года. А также дабавим в промт ассоцирующую эмоцию, чтобы сделать изображения более близкими к постмодернистким решениями автора.
Описание процесса дообучения
Подготовка Окружение: Google colab. Библиотеки: Были установлены diffusers, transformers, accelerate. также установлены open-cv, requests для парсинга изображений. Установлен основной фремворк torch и сопутсвующие зависимости
Данные Датасет: Использованы изображения современного росссийского художника Кирилл Кто. Разметка: Генерация описания «image in KIRILL KTO style».
Обучение Модель: Дообучение SDXL 1.0 + LoRA. Параметры: Разрешение изображений: 512 (исходные изображения были резайснуты через open-cv) Batch size: 2 (на вход модели за один шаг передается тензор из 2 изображений) Шагов обучения: 500.
В процессе генерации изображений задавался определенный промпт. (prompt = «image in KIRILL KTO style»)
Результат Выход: LoRA-адаптеры сохранены в папку kirillkto_LoRA. Публикация: Модель загружена в Hugging Face Hub в репозиторий
Во время работы над проектом использовалась только Stable Diffusion.
Папка с кодом и датасетом




