Генеративная съемка: Stable Diffusion XL на BRND

Идея

датасет

Для обучения был собран датасет изображений моей съемки «Глупое взросление».

Изображения были приведены к квадратному формату и использованы для обучения модели Stable Diffusion XL методом DreamBooth LoRA.

Датасет содержит около 10 изображений со съемки.

Основные характеристики и переданные элементы: — единое лицо, глаза, пропорции, мягкое освещение и выражение — устойчиво воспроизведён сложный фон (paper flower wall) — переданы ключевые черты стиля: рюши, банты, кружево, цветочные мотивы, пастельная розово-персиково-голубая гамма

Процесс

Исходный размер 2784x936

Исходный размер 2722x1208

Результаты хорошо отражают задачу дообучения SDXL для создания coherent character в конкретной визуальной вселенной. Модель научилась удерживать идентичность героини при смене поз, одежды и мелких деталей — именно это и требовалось показать.

Вариации между изображениями:

стоя, розовые волосы, крупный цветок в руках, максимально «цветочная» версия
стоя, многослойный outfit с большим поясным бантом, более «игривая» композиция
сидя, каштановые волосы, школьная форма + чулки, самая динамичная поза

Технические детали (наблюдаемые): — высокая консистентность лица и фона → вероятнее всего LoRA 8–32 ранга + качественный датасет 15–50 фото — смена цвета волос в третьем кадре — типичное поведение без жёсткого face-locking (ControlNet / IP-Adapter / очень сильный триггер) — детализация тканей, кружева и бумажных цветов — на хорошем уровне, артефактов почти нет

Результаты генераций

Исходный размер 1024x1024

самая удачная генерация

Исходный размер 1024x1024

неудачная генерация

Исходный размер 1024x1024

Анализ результата

В результате дообучения модели Stable Diffusion XL методом DreamBooth LoRA была получена серия изображений, сгенерированных по различным текстовым запросам. Модель в большинстве случаев сохраняет основные визуальные характеристики объекта.

На некоторых изображениях можно заметить небольшие ошибки. Это может быть связано с небольшим размером обучающего датасета и особенностями работы генеративных моделей.

итоговые изображения

Ноутбук с кодом

При подготовке текстов и структуры презентации использовался инструмент ChatGPT (chatgpt.com)