Исходный размер 1142x1721

Обучение ИИ созданию картин в авторском стиле

Проект принимает участие в конкурсе

Концепция

Проект направлен на исследование генеративных моделей как инструмента работы с авторским визуальным языком.

В рамках работы я поставила перед собой три задачи: разобраться в технической стороне обучения модели, обучить нейросеть на собственном визуальном стиле и проанализировать, насколько точно она способна интерпретировать заданные запросы.

База данных

big
Исходный размер 1682x461

Процесс обучения ИИ

На первом этапе изображения были загружены вручную в рабочую папку (my_arts). Датасет изначально был стилистически неоднородным: изображения отличались по композиции, степени детализации и визуальному наполнению.

Такая неконсистентность создавала риск «размытия» стиля при обучении, поэтому было принято решение компенсировать это через текстовый слой — промпты.

Для каждого изображения автоматически генерировались описания с помощью модели BLIP. Однако базовые описания оказались слишком краткими и не покрывали все визуальные особенности.

В связи с этим промпты были существенно расширены: добавлялись уточнения формы, композиции и визуального поведения персонажей; увеличивалась длина описания и т. д.

0

Таким образом, длинные промпты выполняли сразу две функции:

1. компенсировали разнородность датасета;

2. задавали более жёсткое направление генерации.

Обучение проводилось с использованием DreamBooth + LoRA на базе Stable Diffusion XL через скрипт train_dreambooth_lora_sdxl.py.

Использование оптимизированных настроек позволило обучить модель в условиях ограниченных ресурсов Colab без потери стабильности.

После обучения LoRA-веса подключались к базовой модели SDXL через библиотеку Diffusers.

Итоговые генерации с помощью ИИ

Из-за размеров промптов, было принято решение указывать их в формате изображений для сопровождения генераций.

Все промпты в текстовом виде представлены в коде на диске.

Исходный размер 2048x1024
Исходный размер 2048x1024
Исходный размер 2353x1024
Исходный размер 2048x1024
Исходный размер 2048x1024
Исходный размер 2048x1024
Исходный размер 2048x1024
Исходный размер 2048x1024
Исходный размер 2048x1024
Исходный размер 2048x1024
Исходный размер 2048x1024

Использование ИИ в проекте

Stable Diffusion XL (SDXL) — генерация изображений и обучение стилю https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

DreamBooth — персонализация модели на пользовательском датасете https://arxiv.org/abs/2208.12242

BLIP — автоматическая генерация описаний изображений https://huggingface.co/Salesforce/blip-image-captioning-base

ChatGPT — создание и расширение промптов https://chat.openai.com

Обучение ИИ созданию картин в авторском стиле
Проект создан 18.03.2026
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше