Обучение модели Stable Diffusion на стиле Эйдвина Эрла на BRND

Исходный размер 1280x682

«Земля полуночного солнца», Эйвинд Эрл (1983)

Описание

Проект посвящен исследованию и воспроизведению уникального стиля Эйвинда Эрла, известного своими стилизованными пейзажами с многослойными силуэтами, яркими цветами и ощущением глубины. Цель проекта — обучить нейронную сеть генерировать пейзажи, вдохновленные его работами, улавливая ключевые элементы его художественного языка и создавая новые, оригинальные композиции в его духе.

Исходный размер 1272x1024

Even Tide, Эйвинд Эрл (1994)

Эйвинд Эрл (1916-2000) — известный своим влиянием на анимацию Диснея, также был чрезвычайно успешным и плодовитым иллюстратором рождественских открыток, создавшим более 800 уникальных сюжетов. Он выработал узнаваемый стиль, сочетающий простоту, таинственность, изящность и кажущуюся простоту. Мастерское использование сериграфии позволяло Эрлу создавать насыщенные цвета и детализированные изображения, превращая его открытки в произведения искусства.

Исходный размер 1590x1198

Слева — Midnight Blue (1983), справа — Moon Bath (1988), автор — Эйвинд Эрл

Исходный размер 1280x547

«Forest Magic», Эйвинд Эрл (1999)

Итоговая серия изображений

Исходный размер 1577x512

Сгенерировано в обученной модели SD. Промпты: «dark forest in ERL style» и «very dark forest in ERL style»

В целом, проект по генерации изображений в стиле Эйвинда Эрла можно считать успешным. Нейросети удалось продемонстрировать понимание и воспроизведение ключевых элементов его узнаваемого стиля. Особенно хорошо это заметно в пейзажных работах: плоскостность, характерные однотонные заливки, плавные градиенты и мягкие линии переданы весьма убедительно, что создает ощущение, будто изображения действительно могли быть созданы самим Эрлом. Узнаваемая эстетика художника присутствует, что делает сгенерированные работы вполне самодостаточными и интересными.

Исходный размер 2058x1024

Сгенерировано в обученной модели SD. Промпт: «forest in ERL style»

Исходный размер 2048x2048

Сгенерировано в обученной модели SD. Промпт: «cafe in ERL style»

Однако, стоит отметить и некоторые ограничения. На мой взгляд, в процессе обучения несколько потерялась замысловатая детализация, которая в оригинальных работах Эрла играет важную роль. Эта детализация не просто украшает изображение, но и активно подчёркивает форму объектов, добавляя им глубину и особый шарм. Возможно, для более точной имитации этой сложной черты потребовались бы дополнительные методы обучения, более тонкая настройка параметров и промптов.

Исходный размер 2048x1024

Сгенерировано в обученной модели SD. Промпты: «bar in ERL style» и «blue and detailed bar in ERL style»

Исходный размер 2048x2048

Сгенерировано в обученной модели SD. Промпты: «city veiw in ERL style» и «city blue and detailed in ERL style»

Наиболее интересным и показательным оказался эксперимент с генерацией лиц и людей. Эрл крайне редко изображал людей в своих работах, специализируясь преимущественно на фонах и пейзажах. Это создало значительные трудности для нейросети, что, в конечном итоге, вылилось в достаточно неоднозначный результат. Сгенерированные персонажи, в итоге, предстали в трёх различных стилях, лишь отдаленно напоминающих общую эстетику Эрла.

Исходный размер 3133x1024

Сгенерировано в обученной модели SD. Промпты: «crowd in ERL style» и «crowd blue and detailed lin ERL style»

Этот результат, на мой взгляд, демонстрирует как сильные стороны, так и ограничения нейросетей. С одной стороны, они способны достаточно успешно имитировать стиль, но с другой — испытывают трудности при работе с данными, которые недостаточно представлены в обучающем наборе. Этот аспект подчеркивает специализацию Эрла как художника, фокусирующегося на пейзажах и фонах.

Исходный размер 2048x1024

Сгенерировано в обученной модели SD. Промпт: «city veiw in ERL style»

Исходный размер 2048x2048

Сгенерировано в обученной модели SD. Промпт: «landscape in ERL style»

Использованные промпты:

«landscape blue and detailed in ERL style»
«city blue and detailed in ERL style»
«country blue and detailed in ERL style»
«crowd blue and detailed lin ERL style»
«dark forest in ERL style»
«blue and detailed bar in ERL style»
«bar in ERL style»
«blue and detailed cafe in ERL style»
«cafe in ERL style»
«forest in ERL style»
«blue and detailed city veiw in ERL style»
«city veiw in ERL style»
«landscape in ERL style»
«New York in ERL style»
«crowd in ERL style»

Описание процесса генерации

Загрузка кода для обучения SD-модели с GitHub: Первым шагом стало выбор подходящей Stable Diffusion модели и загрузка соответствующего репозитория с GitHub.
Сбор изображений и их подготовка для обработки: Далее последовал процесс сбора изображений. Использовались различные источники: онлайн-галереи, каталоги, цифровые архивы и публикации. Потом фото необходимо было обрезать до квадратов и привести к одному разрешению.
Работа с кодом: необходимо было получить токен Hugging face и обучить модель, последовательно запуская блоки кода. Затем было написание промптов и эксперименты с разными формулировками для максимально похожего результата.
Скачивание картинок и их обработка, улучшение качества с помощью ИИ: После завершения обучения модели следовал этап генерации изображений и их постобработки. а этом этапе использовались различные инструменты улучшения качества: масштабирование (upscaling) для увеличения разрешения без потери деталей, коррекция цветовой гаммы, удаление артефактов и шумов. Для улучшения качества использовались специализированные AI-сервисы и программы.

Блокнот с кодом

https://disk.yandex.ru/d/a9KS8rNB9HeCUg

Описание применения генеративной модели и AI-инструментов

Обученная SD-модель: Основной генератор изображений, обученный на работах Эрла для воспроизведения его стиля (плоскостность, градиенты, цвета). Тонкая настройка параметров для наилучшего результата. Подключение его происходило через код, данный в курсе.
AI для улучшения картинок: Инструменты для постобработки: • Масштабирование — увеличение разрешения. • Удаление шумов/артефактов, коррекция цвета, повышение резкости. Ссылка: https://airbrush.com/ru/image-enhancer
Chat GPT для генерации, анализа и оптимизации текстовых промптов для SD-модели. Ссылка: https://chat-gpt.org/