Описание идеи
Есть художники, чьи произведения переживают их самих. О чьих картинах говорят даже спустя несколько сотен лет после их смерти. Однако есть и другие художники, которые также бесконечно талантливы, но, к сожалению, их имена не так известны или уже позабыты подавляющим большинством. Одилон Редон — один из таких художников. В своей работе я хочу не только показать в насколько удивительном стиле творил этот человек, но и создать инструмент, который продолжит нести его поистине уникальный стиль в массы.
Обучение модели и референсы
Поскольку работы Редона довольно разнообразны я включил в список референсов как его ранние более мрачные картины, так и поздние, где можно увидеть намного больше ярких красок.
- Одилон Редон «После казни» 1877 г. 2) Одилон Редон «Голова мученика» 1877 г.
- Одилон Редон «Друидесса» 1893 г. 2) Одилон Редон «Будда, идущий среди цветов» 1905 г.
Для датасета были собраны 30 изображений работ Одилона Редона в хорошем качестве. Перед обучением они были приведены к единому квадратному формату 1:1. После этого к каждой картинке были добавлены текстовые описания, а в саму модель был введен специальный токен ODREDONSTYLE, чтобы модель поняла, что во время генерации нужно использовать выученные особенности стиля.
В процессе обучения использовались параметры, подобранные под возможности Google Colab и формат задачи. Основные настройки были следующими: — разрешение обучения 512 — скорость обучения 1e-4 — LoRA rank = 16 — gradient checkpointing для экономии видеопамяти и около 800 шагов обучения.
Такой набор параметров был выбран как компромисс между качеством, временем работы и ограничениями среды. В моем случае модель обучалась около 95 минут.
После завершения обучения LoRA-переходник был подключен к базовой модели SDXL, и дальше начался этап генерации изображений. Для большей креативной свободы я сделал так, чтобы модель принимала ручной промпт. Кроме того, я добавил выбор формата изображения: вертикальный, горизонтальный или квадратный. Это позволило внести больше визуального разнообразия в лонгрид.
Итоги работы
Промпт: two cats fighting in the cafe
Стиль Редона интересен тем, что сочетает в себе мрачные мотивы Гойи и волшебную, почти пастельную живопись.
Промпт: man transforms into a bug in his bed
В получившейся серии для меня было важно не столько добиться буквального сходства с конкретными картинами Одилона Редона, сколько передать общие принципы его живописи. В лучших генерациях хорошо считываются мягкие цветовые переходы, туманность формы, отсутствие жесткого контура и особая символистская атмосфера.
Промпт: nightmare
Многие изображения выглядят так, будто они не изображают реальную сцену, а возникают из сна, воспоминания или внутреннего видения. Именно это ощущение неопределенности и делает результат визуально близким к Редону.
Промпт: dark castle on the mountain
Лучше всего модели удалось передать несколько характерных черт стиля Редона. Во-первых, это символистская природа образа: в серии хорошо работают лица, фигуры, цветы, странные сцены и мотивы, которые воспринимаются не как прямая иллюстрация, а как знак или видение. Во-вторых, это мягкая пастельная цветовая среда: многие изображения построены на приглушенных и светящихся оттенках, без резкой контрастной графики. В-третьих, это сонная и мистическая атмосфера, которая особенно заметна в сюжетах с портретами, цветами и странными существами.
Промпты:
- Woman talks with the skeleton
- Human face looking from the cup
- Woman with flowers
- Spinosaurus on fire
Промпт: flowers on the window
Ссылки и нейросети
Дополнительные методы улучшения изображений, кроме обрезания и коллажа не использовались
В проекте использовались следующие нейросети и модели:
Stable Diffusion XL (SDXL) Это основная генеративная модель, на базе которой происходило обучение и последующая генерация изображений. Именно она отвечала за создание новых картинок по текстовому описанию.
DreamBooth LoRA Это способ дообучения базовой модели под конкретный художественный стиль. В моем проекте LoRA использовалась для того, чтобы внедрить в Stable Diffusion XL особенности живописи Одилона Редона без полного переобучения всей модели.
BLIP (Salesforce/blip-image-captioning-base) Эта модель использовалась на этапе подготовки датасета. С ее помощью для исходных изображений автоматически создавались текстовые подписи, которые затем применялись при обучении.
CLIP Text Encoder Текстовый энкодер внутри пайплайна Stable Diffusion XL. Он переводит текстовый промпт в числовое представление, понятное генеративной модели.
U-Net (в составе Stable Diffusion XL) Основной вычислительный блок генерации. Именно он шаг за шагом удаляет шум из латентного представления изображения и формирует итоговую картинку в соответствии с промптом и обученным стилем.
Variational Autoencoder / AutoencoderKL (VAE) Модуль кодирования и декодирования изображения. Он переводит изображение в латентное пространство и обратно, то есть участвует в преобразовании скрытого представления в финальные пиксели.
Датасет: https://drive.google.com/drive/folders/1NQ3dSO_EcaU0gf3Tpretz1WmGB-Zf6Xx?usp=sharing
Ноутбук с кодом: https://colab.research.google.com/drive/1jVrMpfMHTjG7N4BmFn_ERXQLWtwXTXya?usp=sharing




