Обучение генеративной нейросети под кино-стиль на BRND

Описание идеи проекта

Проект выполнен по кадрам из фильмов Сергея Эйзенштейна. Режиссер своим стилем значительно опередил время, его кинематография отличается выразительностью и узнаваемостью. Мне захотелось проверить, сможет ли этот стиль удержаться при использовании нейросетей.

Исходные изображения для обучения

Было использовано 38 изображений из фильмов «Броненосец „Потемкин“», «Иван Грозный», «Александр Невский», а также незавершенного фильма «Да здравствует Мексика!». В основном это кадры с одним человеком в кадре и выразительным светом, но также присутствует несколько более сложных сцен.

Исходный размер 1920x894

Исходный размер 1920x892

Результирующая серия изображений

In the style of Sergei Eisenstein, a woman in traditional russian dress, kokoshnik, dramatic lighting / In the style of Sergei Eisenstein, a young boy with dappled light on his face

Исходный размер 1024x1024

In the style of Sergei Eisenstein, a portrait of an orthodox priest, dramatic lighting

In the style of Sergei Eisenstein, a woman with a shadow of a cross falling across her face, close up, dramatic lighting / In the style of Sergei Eisenstein, close-up portait of a crying woman…

Исходный размер 1024x1024

In the style of Sergei Eisenstein, a woman in black robes, holding a skull in her hands

In the style of Sergei Eisenstein, a knight on a horse with a flag / In the style of Sergei Eisenstein, a man in a suit looking over a big city, metropolis, high rise buildings

Исходный размер 1024x1024

In the style of Sergei Eisenstein, a robot tending to a graden

Комментарий об итоговой серии изображений

В серию вошли несколько портретов, так как в датасете преобладали кадры с лицами. Нейросеть справилась с этой задачей очень хорошо: она наделяет людей выразительными чертами (в отличие от часто встречающейся у ИИ усредненности, дообучение и разнообразие актеров в старых фильмах дали хороший баланс), а также отлично работает со сложным освещением.

Так же было сгенерировано несколько изображений того, чего в датасете было немного: воин в доспехах на коне (подобные кадры были в «Александре Невском») и девушка с черепом (отсылка к «Да здравствует Мексика!»). Результат получился неплохим: некоторые детали удерживаются. У воина доспех, хоть и выглядит шумно, в целом напоминает традиционный; череп удался хорошо.

Также были созданы изображения с попыткой передать более современные сюжеты в стиле кинематографа 1920–1930‑х годов, а также объекты, отсутствовавшие в датасете. В этих случаях нейросеть несколько теряет точность, однако результаты всё равно выглядят интересно.

Вывод

В целом обучение, на мой взгляд, прошло успешно. Основные черты, которые я хотела сохранить, остались. Любопытно, что несмотря на использование исключительно черно-белого датасета, генерации приобретают желтоватые оттенки. Эту тенденцию часто отмечают у различных нейросетей, в частности при генерации изображений в ChatGPT.

Процесс обучения

Исходный размер 1920x892

Генерация подписей через BLIP

Исходный размер 1920x892

Тренировка модели

Исходный размер 1920x892

Генерация изображений

База изображений

Код

Модель на hugging face