Новая жизнь Одилона Редона на BRND

Описание идеи

Есть художники, чьи произведения переживают их самих. О чьих картинах говорят даже спустя несколько сотен лет после их смерти. Однако есть и другие художники, которые также бесконечно талантливы, но, к сожалению, их имена не так известны или уже позабыты подавляющим большинством. Одилон Редон — один из таких художников. В своей работе я хочу не только показать в насколько удивительном стиле творил этот человек, но и создать инструмент, который продолжит нести его поистине уникальный стиль в массы.

Обучение модели и референсы

Поскольку работы Редона довольно разнообразны я включил в список референсов как его ранние более мрачные картины, так и поздние, где можно увидеть намного больше ярких красок.

Одилон Редон «После казни» 1877 г. 2) Одилон Редон «Голова мученика» 1877 г.

Одилон Редон «Друидесса» 1893 г. 2) Одилон Редон «Будда, идущий среди цветов» 1905 г.

Для датасета были собраны 30 изображений работ Одилона Редона в хорошем качестве. Перед обучением они были приведены к единому квадратному формату 1:1. После этого к каждой картинке были добавлены текстовые описания, а в саму модель был введен специальный токен ODREDONSTYLE, чтобы модель поняла, что во время генерации нужно использовать выученные особенности стиля.

Исходный размер 1180x91

Исходный размер 532x481

В процессе обучения использовались параметры, подобранные под возможности Google Colab и формат задачи. Основные настройки были следующими: — разрешение обучения 512 — скорость обучения 1e-4 — LoRA rank = 16 — gradient checkpointing для экономии видеопамяти и около 800 шагов обучения.

Такой набор параметров был выбран как компромисс между качеством, временем работы и ограничениями среды. В моем случае модель обучалась около 95 минут.

Исходный размер 715x622

После завершения обучения LoRA-переходник был подключен к базовой модели SDXL, и дальше начался этап генерации изображений. Для большей креативной свободы я сделал так, чтобы модель принимала ручной промпт. Кроме того, я добавил выбор формата изображения: вертикальный, горизонтальный или квадратный. Это позволило внести больше визуального разнообразия в лонгрид.

Исходный размер 681x407

Исходный размер 937x463

Итоги работы

Исходный размер 1344x768

Промпт: two cats fighting in the cafe

Стиль Редона интересен тем, что сочетает в себе мрачные мотивы Гойи и волшебную, почти пастельную живопись.

Промпт: man transforms into a bug in his bed

В получившейся серии для меня было важно не столько добиться буквального сходства с конкретными картинами Одилона Редона, сколько передать общие принципы его живописи. В лучших генерациях хорошо считываются мягкие цветовые переходы, туманность формы, отсутствие жесткого контура и особая символистская атмосфера.

Исходный размер 1344x768

Промпт: nightmare

Многие изображения выглядят так, будто они не изображают реальную сцену, а возникают из сна, воспоминания или внутреннего видения. Именно это ощущение неопределенности и делает результат визуально близким к Редону.

Исходный размер 2400x1344

Промпт: dark castle on the mountain

Лучше всего модели удалось передать несколько характерных черт стиля Редона. Во-первых, это символистская природа образа: в серии хорошо работают лица, фигуры, цветы, странные сцены и мотивы, которые воспринимаются не как прямая иллюстрация, а как знак или видение. Во-вторых, это мягкая пастельная цветовая среда: многие изображения построены на приглушенных и светящихся оттенках, без резкой контрастной графики. В-третьих, это сонная и мистическая атмосфера, которая особенно заметна в сюжетах с портретами, цветами и странными существами.

Исходный размер 2100x2100

Промпты:

Woman talks with the skeleton
Human face looking from the cup
Woman with flowers
Spinosaurus on fire

Промпт: flowers on the window

Ссылки и нейросети

Дополнительные методы улучшения изображений, кроме обрезания и коллажа не использовались

В проекте использовались следующие нейросети и модели:

Stable Diffusion XL (SDXL) Это основная генеративная модель, на базе которой происходило обучение и последующая генерация изображений. Именно она отвечала за создание новых картинок по текстовому описанию.

DreamBooth LoRA Это способ дообучения базовой модели под конкретный художественный стиль. В моем проекте LoRA использовалась для того, чтобы внедрить в Stable Diffusion XL особенности живописи Одилона Редона без полного переобучения всей модели.

BLIP (Salesforce/blip-image-captioning-base) Эта модель использовалась на этапе подготовки датасета. С ее помощью для исходных изображений автоматически создавались текстовые подписи, которые затем применялись при обучении.

CLIP Text Encoder Текстовый энкодер внутри пайплайна Stable Diffusion XL. Он переводит текстовый промпт в числовое представление, понятное генеративной модели.

U-Net (в составе Stable Diffusion XL) Основной вычислительный блок генерации. Именно он шаг за шагом удаляет шум из латентного представления изображения и формирует итоговую картинку в соответствии с промптом и обученным стилем.

Variational Autoencoder / AutoencoderKL (VAE) Модуль кодирования и декодирования изображения. Он переводит изображение в латентное пространство и обратно, то есть участвует в преобразовании скрытого представления в финальные пиксели.

Датасет: https://drive.google.com/drive/folders/1NQ3dSO_EcaU0gf3Tpretz1WmGB-Zf6Xx?usp=sharing

Ноутбук с кодом: https://colab.research.google.com/drive/1jVrMpfMHTjG7N4BmFn_ERXQLWtwXTXya?usp=sharing