Концепция
Я решила обучить генеративную нейросеть Stable Diffusion создавать изображения в стиле Клода Моне — гения импрессионизма, который ловил свет, цвет и мгновение с такой нежностью, что его пейзажи кажутся живыми.
Дополнительно проект исследует, как нейросеть может интерпретировать и трансформировать художественные мотивы: создавать новые композиции, комбинировать узнаваемые элементы Моне с современными пейзажами и даже «играть» с палитрой и текстурами. Это попытка открыть мост между классическим искусством и цифровым творчеством, дать возможность каждому увидеть знакомый мир глазами импрессиониста через генеративные образы, вдохновляя на новые визуальные эксперименты.
Процесс обучения
Проект начался с подготовки рабочей среды в облаке Google Colab. Там были установлены все нужные библиотеки для работы с генеративными нейросетями, включая Diffusers и DreamBooth, чтобы модель могла учиться создавать изображения в заданном художественном стиле.
Для реализации проекта использовались такие инструменты:
— Stable Diffusion — генеративная модель для создания картин в стиле Клода Моне; — Google Colab — онлайн-платформа для запуска кода и управления процессом обучения; — Hugging Face — сервис для хранения и публикации модели после обучения, а также для получения доступа через токен
Следующий этап включал сбор и подготовку датасета с картинами Моне. Каждое изображение проверялось на качество и формат, после чего создавались текстовые подписи, отражающие особенности композиции, цветовую гамму и атмосферу работ художника. Такая подготовка дала модели «контекст» и позволила ей лучше усвоить уникальные черты стиля, прежде чем началось обучение.
Этот код скачивает готовый датасет с Hugging Face (diffusers/dog-example) и сохраняет его в папку ./content/monet/.
Код помог нам быстро получить готовые изображения, которые можно было использовать для проверки работы модели и экспериментов с генерацией.
Этот код мы использовали для быстрого просмотра и визуальной проверки изображений из нашего датасета.
Он выполнял несколько задач:
-Собирал изображения из указанной папки (./monet/*.jpg). -Приводил их к одинаковому размеру (если указан параметр resize), чтобы сетка выглядела аккуратно. -Создавал сетку (grid) из нескольких картинок в одну картинку, чтобы сразу видеть несколько примеров. -Позволял нам быстро убедиться, что все изображения на месте, правильные и подходят для обучения модели. -Иными словами, этот код был удобным инструментом для предварительного осмотра датасета перед началом обучения нейросети.
Этот блок кода мы использовали для автоматической генерации описаний (подписей) для наших изображений, чтобы подготовить датасет для обучения модели.
Конкретно, он выполнял следующие задачи:
-Загрузка модели BLIP (BLIP — это нейросеть для автоматического создания описаний изображений) и соответствующего процессора для обработки картинок. -Определение устройства: если есть GPU, модель работала на нём (cuda), иначе — на CPU. -Функция caption_images брала изображение и возвращала текстовое описание (caption), максимально приближенное к содержанию картинки. -Обход всех изображений в папке ./monet/, создание для каждого подписи с префиксом «photo collage in MONET style, " и сохранение этих данных в формате JSONL (metadata.jsonl). -В итоге получался готовый к обучению датасет, где каждому файлу сопоставлен текстовый промт, который модель использовала бы при DreamBooth-обучении.
Проще говоря, этот код помог нам автоматизировать создание промтов для всех картин, чтобы нейросеть училась понимать стиль Моне и генерировать новые изображения в этом стиле.
Этот блок кода мы использовали для обучения нашей модели DreamBooth с LoRA на основе Stable Diffusion XL в стиле Клода Моне.
Итоговые иллюстрации
prompt = «photo collage in CLAUDE MONE style, a misty morning on the river with floating boats» prompt = «photo collage in CLAUDE MONE style, sailboats drifting on a misty lake»
prompt = «photo collage in CLAUDE MONE style, soft light on a flower-filled terrace» prompt = «photo collage in CLAUDE MONE style, a quiet village street with blooming flowers»
prompt = «photo collage in CLAUDE MONE style, morning fog over a lily pond with reflections» prompt = «photo collage in CLAUDE MONE style, lily pads under a pastel sunset sky»
prompt = «photo collage in CLAUDE MONE style, garden path with hydrangeas and soft fog»
prompt = «photo collage in CLAUDE MONE style, misty morning in a wildflower field» prompt = «photo collage in CLAUDE MONE style, soft rain falling over a blooming meadow»
prompt = «photo collage in CLAUDE MONE style, golden wheat fields under soft sunlight»
prompt = «photo collage in CLAUDE MONE style, autumn leaves falling on a riverbank» prompt = «photo collage in CLAUDE MONE style, reflections of trees on a calm pond»
Я обучила генеративную нейросеть на базе Stable Diffusion XL, чтобы она создавалa изображения в стиле Клода Моне. С помощью DreamBooth и LoRA модель научилась передавать особенности импрессионизма — цвет, свет и атмосферу картин. Я подготовила датасет, промты для генерации подписей, настроила обучение и сохранила готовую модель на Hugging Face. Теперь её можно использовать для создания новых картин в стиле Моне.




