ВВЕДЕНИЕ
Мне нравится рисовать женские образы, в связи с чем я решила взять в качестве темы проекта обучение генеративной нейросети Stable Diffusion XL моему авторскому стилю рисования женских портретов.
Основная работа производилась в среде Google Colab на базе предоставленного ноутбука. Дообучение базовой модели Stable Diffusion XL было осуществлено с помощью модели генерации глубокого обучения DreamBooth, позволяющей использовать небольшое количество исходных изображений, а для оптимизации способа сохранения необходимых изменений отдельно от основной модели применялась технология Lora.
Главной целью данной работы является анализ того, насколько точно генеративная нейросеть Stable Diffusion XL способна перенять характерные черты моего авторского стиля рисования женских портретов и каким образом этот стиль проявляется при генерации новых изображений.
ИСХОДНЫЕ ИЗОБРАЖЕНИЯ
В качестве исходных изображений был выбран датасет из 20 моих цифровых рисунков в квадратном формате с размером 1024×1024, некоторые из которых представлены ниже:

6 из 20 моих женских цифровых портретов, использованных в качестве исходных изображений для обучения нейросети
Эти 20 исходных изображений сочетают реалистичные поплечные женские портреты, выполненные в технике имитации масляной живописи с более условным изображением второстепенных деталей и фоновых элементов.
Не смотря на идентичную центрированную композицию, сами образы, цветовая гамма и освещение отличаются.
ПРОЦЕСС ОБУЧЕНИЯ
Дообучение модели Stable Diffusion заняло несколько этапов, первый из которых состоял в подготовке датасета из 20 собственных цифровых рисунков размером 1024×1024. Далее я загрузила файл «SDXL_DreamBooth_LoRA_Colab.ipynb» в Google Colab и проверила, подключен ли графический процессор GPU в настройках. Затем были установлены все необходимые компоненты в соответствии с инструкцией, а также загружен скрипт для дообучения модели (файл train_dreambooth_lora_sdxl.py).
На следующем этапе я создала в Colab свою папку anejka и загрузила в нее изображения из моего датасета. С помощью кода сделала предпросмотр первых 5 изображений датасета, чтобы убедиться, что они корректно загрузились. Затем при помощи модели BLIP сгенерировала описание для каждого изображения в папке anejka, а к каждому описанию добавлен токен «ANEJKA style».
Далее я сгенерировала файл metadata.jsonl для обучения модели. Затем выполнила подготовку к обучению модели, включающую конфигурирование скрипта accelerate и регистрацию аккаунта на Hugging Face, где мной был сгенерирован access token, с помощью которого я затем залогинилась в Colab.
Следующим шагом была установлена библиотека datasets и запущен скрипт для дообучения модели на моем датасете, которое заняло около 40 минут и 500 шагов.
После завершения дообучения я выгрузила модель в формате LoRA в Hugging Face. Затем загрузила модель Stable Diffusion и подключила к ней веса LoRA из Hugging Face. В заключение задала промты для генерации новых изображений, используя ранее указанный токен ANEJKA style.
РЕЗУЛЬТИРУЮЩАЯ СЕРИЯ ИЗОБРАЖЕНИЙ
В результате получилась серия изображений, представляющая вариацию женских портретов в заданной стилистике, лучшие из которых представлены ниже:
Серия женских портретов, созданных генеративной нейросетью Stable Diffusion на базе моих цифровых рисунков
ИТОГОВЫЙ КОММЕНТАРИЙ К ПРОЕКТУ
В результате обучения нейросеть продемонстрировала способность воспроизводить особенности исходного визуального стиля.
Во-первых, после генерации нейросетью новых изображений сохранилась композиционная структура: крупный план, поплечный портрет женщины, центральное расположение персонажа.
Во-вторых, достаточно хорошо передается общая стилистика: имитация масляной живописи, лица сохранили прежние пропорции и реалистичность, а фоновые объекты изображены более условно.
В-третьих, хорошо воссоздана предпочитаемая цветовая палитра и освещение, при том, что нейросеть комбинирует разные цветовые сочетания.
Однако, в процессе обучения выявились и некоторые ограничения модели. Например, заметна тенденция к усреднению черт лица персонажей, из-за чего падает уровень их индивидуальности по сравнению с серией исходных изображений, а детали одежды и текстуры немного искажаются или излишне упрощаются. Также у всех персонажей похожее выражение лица и слегка приоткрыт рот, иногда появляется некорректное количество деталей (три косички, вместо двух, две сигареты в одной руке и т. д.). Не смотря на эти незначительные нюансы, я довольна результатом совместной работы с данной нейросетью и возможно в дальнейшем смогу использовать их для вдохновения.
ОПИСАНИЕ ПРИМЕНЕНИЯ ГЕНЕРАТИВНЫХ МОДЕЛЕЙ
Кроме Stable Diffusion в работе использовались нейросеть Gemini. URL: https://gemini.google.com — для редактирования обложки проекта (улучшение разрешения изображения и размера фона) и помощи с созданием промта для генерации новых изображений.




