Обучение генеративной модели на BRND

Описание проекта

В данном проекте выполняется обучение модели SDXL LoRA на пользовательском датасете изображений с сырниками. Цель — дообучить генеративную модель для создания изображений в заданной тематике и стиле.

В ходе работы были подготовлены изображения и текстовые подписи, настроена среда и запущено обучение с использованием библиотеки Diffusers и метода LoRA, позволяющего эффективно адаптировать модель без полного переобучения.

В процессе обучения модель усваивает форму, текстуру и характерную подачу блюда. После обучения проверяется, насколько хорошо она переносит этот образ в другие условия: с измененным фоном, освещением и композицией.

Результатом является обученная модель, способная генерировать изображения сырников на основе текстовых запросов.

Исходные изображения

Все фото взяты из личного архива, показывают разную форму, подачу, ракурс самих сырников. Фотографии отличаются по фону, цветовой гамме и детализации, что позволяет модели лучше обобщать визуальный образ объекта и переносить его в новые контексты.

Написание кода

Исходный размер 1079x439

Создала основные папки проекта, в которых будут храниться изображения, подготовленный датасет, результаты и файлы модели. Программа автоматически проверяет и создаёт нужные директории, чтобы всё было организовано и удобно для работы. Также выводится путь к проекту и выполняется проверка доступности видеокарты.

Исходный размер 1095x725

Задаются основные параметры обучения модели: размер изображений, количество данных, скорость обучения и другие настройки. Также указывается базовая модель, которая будет дообучаться. Создаётся текстовый запрос для обучения и список нежелательных эффектов.

Исходный размер 1167x389

Приводим датасет к единым параметрам.

Создаём текстовые описания для изображений и формируем файл metadata.jsonl. Для каждой картинки автоматически генерируется подпись на основе шаблонов, после чего создаётся таблица, где каждому изображению соответствует его описание.

Этот файл используется моделью при обучении, чтобы она могла связывать текст с изображениями.

Исходный размер 845x237

Настройка среды перед обучением. Устанавливается кодировка UTF-8, запускается базовая конфигурация библиотеки accelerate, а также проверяется, доступна ли видеокарта (GPU).

Исходный размер 1007x624

Запускается обучение модели с помощью команды accelerate. Передаются все основные параметры: путь к модели, датасету, размер изображений, скорость обучения и другие настройки. Происходит сам процесс обучения после запуска. В конце выводится результат, и если возникает ошибка, программа сообщает об этом.

На этом этапе загружается обученная LoRA-модель и подключается к базовой модели Stable Diffusion XL. Если финальные веса ещё не сохранены, используется последний доступный checkpoint. После этого модель подготавливается к генерации изображений, чтобы можно было проверить результат обучения.

Исходный размер 1312x299

В этом блоке создаётся собственный промт для генерации изображения. Модель генерирует картинку по этому описанию с заданными параметрами (качество, шаги, точность). После этого изображение сохраняется в папку и выводится на экран, чтобы можно было увидеть результат.

Итог

В рамках проекта была обучена модель LoRA на основе Stable Diffusion XL для генерации изображений сырников. Сначала был подготовлен датасет и текстовые описания, затем настроены параметры обучения и проведено обучение модели. После этого обученные веса были подключены к базовой модели, и с их помощью были сгенерированы новые изображения. В результате получилась модель, которая умеет создавать реалистичные изображения сырников в разных стилях и под разные текстовые запросы.

код: https://drive.google.com/drive/folders/1JuKG0VoT_x94wfsr3g5GrpQfTWqglDT2?hl=ru (под названием syrnikil.ipynb)