Dezign

КОНЦЕПЦИЯ ПРОЕКТА

Концепция проекта строится вокруг исследования генеративной модели как инструмента воспроизведения авторского визуального языка на основе собственного датасета. В качестве исходного материала использовались мои изображения, что позволило контролировать стилистическую целостность и точнее анализировать поведение модели в процессе обучения.

В ходе генерации было выявлено, что часть изображений требовала повторной перегенерации из-за типичных артефактов — нарушений пропорций лица: асимметрии глаз, различий в их размере и некорректного местоположения относительно оси лица.

Проект направлен на практическое освоение пайплайна обучения и дообучения модели, а также на выявление ограничений нейросетей при работе с чувствительными к структуре объектами, такими как человеческое лицо.

ДАТАСЕТ И БЛОКНОТ

Датасет

Блокнот

Исходный размер 3165x1585

ОБУЧЕНИЕ МОДЕЛИ

Исходный размер 3553x1706

В рамках проекта, направленного на исследование генеративной модели как инструмента воспроизведения авторского визуального языка, был собран датасет из собственных изображений и загружен в среду Google Colab. Такой подход позволил сохранить стилистическую целостность материала и точнее отслеживать поведение модели на всех этапах обучения.

Для усиления связи между визуальными данными и их семантикой использовалась модель BLIP, автоматически генерирующая описания изображений и повышающая управляемость генерации.

Обучение проводилось на базе Stable Diffusion XL с применением методов DreamBooth и LoRA, что позволило адаптировать модель под индивидуальные особенности авторского стиля. Гиперпараметры подбирались с учётом ограничений среды, а итоговые веса интегрировались через Diffusers.

Исходный размер 3572x1795

Как ранее было упомянуто, в процессе обучения было понятно, что часть изображений требовала повторной перегенерации (2–3 итерации) из-за проблем возникших на фоне некоректного создания ИИ изображений, в частности особенностей стиля и пропорций.

Исходный размер 3548x1418

Результаты показали, что даже при ограниченном объёме данных модель способна воспроизводить авторский стиль, однако сохраняются ограничения при работе с чувствительными структурными элементами, такими как лицо, что подчёркивает необходимость дальнейшей настройки и контроля генеративного процесса.

ИТОГИ

Mosh portrait art, character with headphones, pink hair, gentle smile, flat background, hand-drawn texture, cozy atmosphere, floral elements around (2)

Mosh portrait art, character with headphones, pink hair, gentle smile, flat background, hand-drawn texture, cozy atmosphere, floral elements around

Mosh portrait art, cozy hand-drawn character, soft pencil texture, warm muted colors, simple face, freckles, oversized sweater, decorative leaves around, light grain background

Mosh portrait art, cute creature or animal, simplified shapes, colored pencil texture, soft gradients, playful composition, small decorative plants

Mosh portrait art, cute stylized person with round features, colored pencil shading, visible strokes, pastel palette, floral elements, calm friendly expression

Mosh portrait art, soft illustration of a person holding flowers, naive proportions, colored pencil rendering, gentle lighting, decorative plants, minimal background

Mosh portrait art, stylized fantasy character, horns and soft features, hand-drawn lines, textured shading, pastel colors, playful expression, leaf ornaments

Mosh portrait art, whimsical character design, sketchy outlines, textured coloring, warm earthy tones, simple shapes, botanical frame, cozy mood

ИСПОЛЬЗОВАНИЕ ИИ МОДЕЛИ

Perplexity — инструмент для помощи в программировании и создании/оптимизации промптов. https://www.perplexity.ai/

Stable Diffusion XL (SDXL) — модель для генерации изображений. https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

Figma — платформа для дизайна интерфейсов, визуалов и проектных материалов. https://www.figma.com/

DreamBooth — техника дообучения модели на персональном датасете для имитации стиля или персонажа. https://huggingface.co/docs/diffusers/training/dreambooth

LoRA — метод обучения с низкими вычислительными расходами для стилизации и персонализации генерации. https://huggingface.co/docs/diffusers/training/lora

Создание генераций через MoshArt_LoRA