Обучение генеративной модели на лабрадорах на BRND

Идея проекта

В рамках проекта мною были исследованы возможности генеративной модели применительно к созданию изображений лабрадоров. Интерес к данной породе собак послужил основанием для обращения к теме виртуального синтезированного образа.

В качестве исходного материала использовались предварительно отформатированные фотографии, репрезентирующие широкий спектр изображений лабрадора-ретривера, что позволило повысить качество генерируемых моделью результатов.

Референсы –– Исходные изображения

Исходный размер 1657x750

Сгенерированные изображения

Исходный размер 1657x750

В ходе работы генеративная модель продемонстрировала ожидаемую эффективность, позволив синтезировать ряд изображений. Тем не менее, в процессе генерации были выявлены два аспекта, которые не удалось полностью контролировать:

Влияние отдельных референсных изображений приводит к тому, что модель с определенной периодичностью воспроизводит ретриверов с нарушенными пропорциями головы.
На отдельных сгенерированных изображениях наблюдается эффект некорректного добавления или редукции конечностей.

Исходный размер 1657x750

Таким образом, можно сказать, что генеративная модель смогла хорошо уловить объект и поместить его в разные сцены, обеспечив минимальные потери в детализации и соблюдении пропорций.

Исходный размер 1657x750

Процесс обучение генеративной модели

Обучение генеративной модели проходило в Google Collab. Процесс включал несколько этапов.

Сначала загружался подготовленный набор изображений, все фотографии были приведены к единому формату и размеру. Затем для них автоматически создавались текстовые описания с помощью модели BLIP.

После этого выполнялось обучение модели с использованием метода LoRA на базе архитектуры SDXL, а затем осуществлялась генерация изображений в заданном стиле. Для вычислений применялся графический процессор (GPU), что позволило ускорить работу.

Описание применения генеративной модели

Для улучшения генеративных функций я обращалась к модели DeepSeek, которая помогла мне подправить код промта и сделать генерации более реалистичными и минимализировать потерю детализации.

Ссылка на изображения

Ноутбук