Дипфейки Миши на BRND

Идея проекта

Я хочу дообучить генеративную нейросеть Stable Diffusion воспроизводить моего персонажа Мишу с разными эмоциями

Знакомьтесь — добрый медведь Миша. У Миши много складок жира, широкие уши и сложной формы нос

Исходный размер 1946x1946

Я нарисовала несколько изображений своего медведя. Чем точнее и разнообразнее примеры, тем лучше нейронка поймёт стиль. Отдельная нейросеть BLIP автоматически описывала картинки из словами. Она смотрела на каждый рисунок и генерировала что-то вроде: «a drawing of a chubby bear with furrowed brows».

Исходный размер 5200x3700

Я подготовила 15 изображений Миши 1:1 в разных настроениях, чтобы получить возможность генерить компромат на него

Для генерации дипфейков я дообучала Stable Diffusion XL (SDXL) — большую генеративную модель, которую обучили на огромном количестве изображений. Она знает, как выглядит «медведь», но она понятия не имеет, как выглядит Миша — с его ушами, носом и складками. Чтобы сохранить знания модели о том как выглядит «общий» медведь, но добавить знания о Мише, я использовала технику под названием LoRA. Вместо того чтобы менять всю модель, она добавляет веса (информацию), которые хранят только новые знания о Мише, а основная модель остаётся нетронутой.

Исходный размер 3203x2596

Генерации модели до и после дообучения:

prompt = «sksbear bear, drawing of misha_bear, angry chubby bear, bared teeth, furrowed brows, chunky contour line drawing, white background»

Разница очевидна! Нейронка смогла нарисовать нос Миши 1 в 1! Теперь Миша может делать все, что мы напишем в промпте

Исходный размер 1024x1024

«drawing of misha_bear, furious chubby bear, raised fist, open mouth growling, chunky contour line drawing, white background»

«drawing of misha_bear, laughing chubby bear, mouth wide open, body leaning back, chunky contour line drawing, white background»

Модель отлично переносит общие знания об эмоциях на выученный стиль

Исходный размер 1024x1024

код

Итог

Дообучение модели заняло 1,5 часа GPU, но оптимизировало ручное рисование компромата на Мишу в десятки раз

После обучения можно смотреть результат и, если что-то не нравится, пытаться исправить это в параметрах обучения или в датасете. Это открывает много возможностей в быстром создании аутентичной графики

Баги (т.н. галлюцинации модели)