Идея
Для обучения был собран датасет изображений моей съемки «Глупое взросление».
Изображения были приведены к квадратному формату и использованы для обучения модели Stable Diffusion XL методом DreamBooth LoRA.
Датасет содержит около 10 изображений со съемки.
Основные характеристики и переданные элементы: — единое лицо, глаза, пропорции, мягкое освещение и выражение — устойчиво воспроизведён сложный фон (paper flower wall) — переданы ключевые черты стиля: рюши, банты, кружево, цветочные мотивы, пастельная розово-персиково-голубая гамма
Процесс
Результаты хорошо отражают задачу дообучения SDXL для создания coherent character в конкретной визуальной вселенной. Модель научилась удерживать идентичность героини при смене поз, одежды и мелких деталей — именно это и требовалось показать.
Вариации между изображениями:
- стоя, розовые волосы, крупный цветок в руках, максимально «цветочная» версия
- стоя, многослойный outfit с большим поясным бантом, более «игривая» композиция
- сидя, каштановые волосы, школьная форма + чулки, самая динамичная поза
Технические детали (наблюдаемые): — высокая консистентность лица и фона → вероятнее всего LoRA 8–32 ранга + качественный датасет 15–50 фото — смена цвета волос в третьем кадре — типичное поведение без жёсткого face-locking (ControlNet / IP-Adapter / очень сильный триггер) — детализация тканей, кружева и бумажных цветов — на хорошем уровне, артефактов почти нет
Результаты генераций
самая удачная генерация
неудачная генерация
Анализ результата
В результате дообучения модели Stable Diffusion XL методом DreamBooth LoRA была получена серия изображений, сгенерированных по различным текстовым запросам. Модель в большинстве случаев сохраняет основные визуальные характеристики объекта.
На некоторых изображениях можно заметить небольшие ошибки. Это может быть связано с небольшим размером обучающего датасета и особенностями работы генеративных моделей.
При подготовке текстов и структуры презентации использовался инструмент ChatGPT (chatgpt.com)




