Концепция
Проект направлен на исследование генеративных моделей как инструмента работы с авторским визуальным языком.
В рамках работы я поставила перед собой три задачи: разобраться в технической стороне обучения модели, обучить нейросеть на собственном визуальном стиле и проанализировать, насколько точно она способна интерпретировать заданные запросы.
База данных

Процесс обучения ИИ
На первом этапе изображения были загружены вручную в рабочую папку (my_arts). Датасет изначально был стилистически неоднородным: изображения отличались по композиции, степени детализации и визуальному наполнению.
Такая неконсистентность создавала риск «размытия» стиля при обучении, поэтому было принято решение компенсировать это через текстовый слой — промпты.
Для каждого изображения автоматически генерировались описания с помощью модели BLIP. Однако базовые описания оказались слишком краткими и не покрывали все визуальные особенности.
В связи с этим промпты были существенно расширены: добавлялись уточнения формы, композиции и визуального поведения персонажей; увеличивалась длина описания и т. д.
Таким образом, длинные промпты выполняли сразу две функции:
1. компенсировали разнородность датасета;
2. задавали более жёсткое направление генерации.
Обучение проводилось с использованием DreamBooth + LoRA на базе Stable Diffusion XL через скрипт train_dreambooth_lora_sdxl.py.
Использование оптимизированных настроек позволило обучить модель в условиях ограниченных ресурсов Colab без потери стабильности.
После обучения LoRA-веса подключались к базовой модели SDXL через библиотеку Diffusers.
Итоговые генерации с помощью ИИ
Из-за размеров промптов, было принято решение указывать их в формате изображений для сопровождения генераций.
Все промпты в текстовом виде представлены в коде на диске.
Использование ИИ в проекте
Stable Diffusion XL (SDXL) — генерация изображений и обучение стилю https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
DreamBooth — персонализация модели на пользовательском датасете https://arxiv.org/abs/2208.12242
BLIP — автоматическая генерация описаний изображений https://huggingface.co/Salesforce/blip-image-captioning-base
ChatGPT — создание и расширение промптов https://chat.openai.com








