Обучение генеративной нейросети Stable Diffusion под собственные фотографи на BRND

Исходный размер 1684x1190

примеры фотографий из датасета

*все авторские права на использование фотографий из датасета принадлежат мне

В работе продюсера фото и видео съемок ключевую роль играет умение быстро визуализировать сцены, экспериментировать с ракурсами, освещением и цветовыми решениями ещё до начала съёмочного процесса. Традиционно для этого привлекаются художники, создающие раскадровки и концепт-арты, что требует дополнительного времени и бюджета.

Цель этого проекта — создать инструмент на базе Stable Diffusion, который, обучившись на кадрах из реальных съёмок, сможет генерировать новые изображения, сохраняя характерный визуальный стиль и помогая в этапе предпродакшена.

В начале я решила посмотреть, как нейросеть визуализирует фотографии, на основе моих съемок

Исходный размер 643x52

параметры для обучения модели

Исходный размер 1684x860

Исходный размер 700x223

1-3 фрагмент кода генерации

Далее на основе обученной модели я решила повторять конкретные кадры

Исходный размер 1684x860

Исходный размер 813x201

4 изображение фрагмент с кодом

Исходный размер 1684x860

Исходный размер 826x228

5 изображение фрагмент с кодом

Исходный размер 1684x860

Исходный размер 910x229

6 изображение фрагмент с кодом

Исходный размер 1684x860

Исходный размер 931x231

7 изображение фрагмент с кодом

Комментарий

Нейросеть хорошо справилась с простой функцией повторения стилистики: минималистичные портреты с необычными ракурсами и персонажами.

Однако для большей вариативность приходилось прописывать дополнительные детали, чтобы генерируемая картинка получалась более приближенная к оригиналу.

Принцип работы кода

Для дообучения и генерации изображений использована нейросеть Stable Diffusion.

Для обучения были взяты 20 фотографий со съемок в разрешении 512×512 в качестве датасета, а также подключила их к блокноту.

Исходный размер 823x220

Затем модель обучалась с инструментом LoRa

Исходный размер 904x487

Исходный размер 1056x396

блокнот