КОНЦЕПЦИЯ ПРОЕКТА
Концепция проекта строится вокруг исследования генеративной модели как инструмента воспроизведения авторского визуального языка на основе собственного датасета. В качестве исходного материала использовались мои изображения, что позволило контролировать стилистическую целостность и точнее анализировать поведение модели в процессе обучения.
В ходе генерации было выявлено, что часть изображений требовала повторной перегенерации из-за типичных артефактов — нарушений пропорций лица: асимметрии глаз, различий в их размере и некорректного местоположения относительно оси лица.
Проект направлен на практическое освоение пайплайна обучения и дообучения модели, а также на выявление ограничений нейросетей при работе с чувствительными к структуре объектами, такими как человеческое лицо.
ДАТАСЕТ И БЛОКНОТ
ОБУЧЕНИЕ МОДЕЛИ
В рамках проекта, направленного на исследование генеративной модели как инструмента воспроизведения авторского визуального языка, был собран датасет из собственных изображений и загружен в среду Google Colab. Такой подход позволил сохранить стилистическую целостность материала и точнее отслеживать поведение модели на всех этапах обучения.
Для усиления связи между визуальными данными и их семантикой использовалась модель BLIP, автоматически генерирующая описания изображений и повышающая управляемость генерации.
Обучение проводилось на базе Stable Diffusion XL с применением методов DreamBooth и LoRA, что позволило адаптировать модель под индивидуальные особенности авторского стиля. Гиперпараметры подбирались с учётом ограничений среды, а итоговые веса интегрировались через Diffusers.
Как ранее было упомянуто, в процессе обучения было понятно, что часть изображений требовала повторной перегенерации (2–3 итерации) из-за проблем возникших на фоне некоректного создания ИИ изображений, в частности особенностей стиля и пропорций.
Результаты показали, что даже при ограниченном объёме данных модель способна воспроизводить авторский стиль, однако сохраняются ограничения при работе с чувствительными структурными элементами, такими как лицо, что подчёркивает необходимость дальнейшей настройки и контроля генеративного процесса.
ИТОГИ
Mosh portrait art, character with headphones, pink hair, gentle smile, flat background, hand-drawn texture, cozy atmosphere, floral elements around (2)
Mosh portrait art, character with headphones, pink hair, gentle smile, flat background, hand-drawn texture, cozy atmosphere, floral elements around
Mosh portrait art, cozy hand-drawn character, soft pencil texture, warm muted colors, simple face, freckles, oversized sweater, decorative leaves around, light grain background
Mosh portrait art, cute creature or animal, simplified shapes, colored pencil texture, soft gradients, playful composition, small decorative plants
Mosh portrait art, cute stylized person with round features, colored pencil shading, visible strokes, pastel palette, floral elements, calm friendly expression
Mosh portrait art, soft illustration of a person holding flowers, naive proportions, colored pencil rendering, gentle lighting, decorative plants, minimal background
Mosh portrait art, stylized fantasy character, horns and soft features, hand-drawn lines, textured shading, pastel colors, playful expression, leaf ornaments
Mosh portrait art, whimsical character design, sketchy outlines, textured coloring, warm earthy tones, simple shapes, botanical frame, cozy mood
ИСПОЛЬЗОВАНИЕ ИИ МОДЕЛИ
Perplexity — инструмент для помощи в программировании и создании/оптимизации промптов. https://www.perplexity.ai/
Stable Diffusion XL (SDXL) — модель для генерации изображений. https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
Figma — платформа для дизайна интерфейсов, визуалов и проектных материалов. https://www.figma.com/
DreamBooth — техника дообучения модели на персональном датасете для имитации стиля или персонажа. https://huggingface.co/docs/diffusers/training/dreambooth
LoRA — метод обучения с низкими вычислительными расходами для стилизации и персонализации генерации. https://huggingface.co/docs/diffusers/training/lora