Адаптация Stable Diffusion под анимацию «Поленово» на BRND

Концепция

Цель проекта — проверить, можно ли научить Stable Diffusion воспроизводить собственный анимационный стиль лагеря «Поленово». Для этого был собран датасет из 10 авторских кадров анимации, после чего с помощью детального промпт-инжиниринга и описания ключевых визуальных характеристик была создана серия новых изображений в едином стиле.

База данных для ИИ

Исходный размер 1932x765

Было отобрано 10 изображений из собственной анимации лагеря «Поленово» для анализа и формирования датасета. Все изображения представляют различные локации лагеря: ворота, жилые корпуса, озеро, футбольное поле, автобусную станцию, мемориал.

Датасет

Процесс обучения ИИ

Исходный размер 1837x1065

Шаг 1: Подготовка датасета

Сначала все изображения были загружены в рабочую среду Google Colab, где каждый кадр был автоматически приведён к квадратному формату 1024×1024 пикселей для обеспечения консистентности при последующей генерации.

Исходный размер 1766x1224

Шаг 2: Анализ стиля

На следующем этапе был проведён детальный визуальный анализ авторского стиля и выделены ключевые характеристики: hand-drawn black outlines (рисованные чёрные контуры) muted natural colors (приглушённые натуральные цвета) green and yellow palette (зелёно-жёлтая палитра) stylized trees with cloud-like shapes (стилизованые деревья с «облачными» формами) geometric buildings (геометричные здания) gradient sky (градиентное небо) 2d animation art (эстетика 2D анимации)

Шаг 3: Формирование промптов Для каждого типа сцены были созданы детальные текстовые описания, включающие как конкретные элементы локации, так и общие стилистические характеристики. Это позволило связать визуальные данные с семантическими характеристиками.

Исходный размер 1430x1062

Шаг 4: Генерация изображений В качестве базовой архитектуры использовалась Stable Diffusion XL 1.0. Генерация происходила через библиотеку Diffusers с использованием детально проработанных промптов. Гиперпараметры подбирались с учётом необходимости сохранения авторского стиля: num_inference_steps: 30 (достаточно для качественного результата) guidance_scale: 8.0 (строгое следование промпту) Разрешение: 1024×1024 пикселей

Исходный размер 1043x398

Шаг 5: Интеграция и тестирование После генерации все изображения были проанализированы на предмет соответствия исходному стилю. Итоговые результаты показали успешную передачу ключевых визуальных характеристик авторской анимации.

Исходный размер 897x441

Результаты проекта показали, что даже без полноценного fine-tuning возможно эффективно управлять генеративной моделью для воспроизведения авторского визуального стиля. Детальный промпт-инжиниринг с формализацией ключевых характеристик стиля позволил добиться консистентности в сгенерированной серии изображений и подтвердил потенциал генеративных моделей как инструмента в авторской практике.

Исходный размер 2140x1245

Блокнот

Итоговые изображения

«animated illustration in POLENOVO camp style, wooden living building in forest, green lawn, clear black contours, stylized vegetation, muted colors, peaceful atmosphere, hand-drawn outlines»

«animated illustration in POLENOVO camp style, calm lake with tree reflections, orange and yellow gradient sky, hand-drawn art, muted natural palette, stylized trees, peaceful summer evening»

«animated illustration in POLENOVO camp style, football field among pine trees, summer day, hand-drawn outlines, green palette, geometric buildings in background, 2d animation aesthetic»

«animated illustration in POLENOVO camp style, memorial with russian flag, benches, evening light, hand-drawn art, muted natural colors, stylized trees, 2d animation aesthetic»

«animated illustration in POLENOVO camp style, main entrance gate with sign, pine trees, sunset sky, hand-drawn black outlines, muted natural colors, green and yellow palette, stylized trees, geometric buildings, gradient sky, 2d animation art»

«animated illustration in POLENOVO camp style, white buses at station, pathway, stylized vegetation, geometric buildings, muted colors, hand-drawn black contours, peaceful atmosphere»

Использование ИИ

1. YandexGPT / Qwen AI — задействовался для генерации и расширения текстовых промптов, консультации по коду и настройке параметров генерации https://yandex.cloud/ru/services/yandexgpt

2. Stable Diffusion XL 1.0 — использовалась как базовая генеративная модель для создания изображений по текстовому описанию https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

3. Diffusers Library (Hugging Face) — библиотека для работы с диффузионными моделями, генерация происходила через этот инструмент https://github.com/huggingface/diffusers

4. Google Colab — облачная среда для выполнения кода и генерации изображений https://colab.research.google.com