Обучение генеративной нейросети под стиль Гюстава Доре на BRND

Идея проекта

Гюстав Доре — мой самый любимый иллюстратор. Его гравюры всегда поражали меня особым стилем, текстурой, масштабом, светотенью. Идея проекта заключается в том, чтобы обучить модель рисовать в стиле Доре, но вместо библейских или литературных сюжетов — использовать сцены из кино. Получится визуальный эксперимент — как бы выглядели современные фильмы, если бы их иллюстрировали в XIX веке.

Процесс обучения

Для работы было собрано 135 иллюстраций к «Божественной комедии» Гюстава Доре, где максимально полно раскрывается глубина его художественного видения. Именно они стали идеальной основой для формирования уникального визуального стиля модели.

исходные изображения для обучения

К сожалению, для изображений такого высокого качества модели обучения в дальнейшем не хватало памяти. Пришлось их сильно сжать и уменьшить количество до 55 — только тогда всё смогло заработать на минимальных настройках без ошибок.

исходные изображения для обучения

В самом начале обучения скачиваются необходимые библиотеки, а также загружается скрипт обучения LoRA. Затем создаётся локальная папка gustavedore, куда я загружаю свой датасет через интерфейс Google Colab.

После загрузки и обработки датасета, создаётся визуализация первых нескольких изображений для того, чтобы проверить, что загруженные данные правильно отображаются.

Исходный размер 1152x282

Далее модель обрабатывает изображения и создаёт текстовые подсказки, которые описывают их содержимое. Эти описания сохраняются в файл metadata.jsonl, где для каждой картинки сохраняется её имя и соответствующий промпт. Далее выводится содержимое этого файла, чтобы убедиться, что всё было правильно сохранено.

Исходный размер 1152x508

Далее освобождаются ресурсы — удаляются лишние объекты и очищается память на GPU. Затем происходит авторизация в Hugging Face для сохранения модели. После всех этих шагов можно наконец приступать к обучению.

В процессе обучения все изображения из датасета приводятся к фиксированному разрешению 512×512 пикселей. Обучение происходит в течение 500 шагов. Каждые 250 шагов создаётся контрольная точка, позволяющая сохранить промежуточный результат и при необходимости возобновить обучение с неё. Минимальные настройки были выбраны для снижения нагрузки на видеопамять и ускорения обучения ввиду ограниченности вычислительных единиц Google Colab, при более высоких параметрах модель у меня выводила ошибку.

Исходный размер 660x436

После завершения обучения готовая LoRA-модель загружается на Hugging Face. В конце выводится ссылка на страницу модели, где её можно просматривать и использовать. Далее загружается базовая модель SDXL и VAE-декодер, в неё добавляется LoRA, обученная на стиле Гюстава Доре. Потом модель переносится на GPU, и производится генерация изображений по промптам: сначала по базовому промпту «engraving in the style of Gustave Dore» для проверки, а затем — по более детализированным описаниям сцен.

Результирующая серия изображений

Сгенерированные изображения воссоздают сцены, вдохновлённые известными фильмами, но при этом промпты не содержат прямых упоминаний о названиях фильмов или персонажах. Это сделано для того, чтобы сохранить «чистоту» концепции и дать модели больше свободы в интерпретации визуальных образов, создать атмосферу, которая отсылает к фильмам, вызывая у зрителя ассоциации с культовыми кинематографическими произведениями. Здесь важна именно стилистическая связь с визуальными темами, характерными для конкретных сцен, а не точное копирование.

Несмотря на успех в передаче общего визуального стиля Гюстава Доре, изображениям не хватает текстурности, которая является отличительной чертой его гравюр — тонкие, чёткие детали, которые придают изображениям ощущение объёма и глубины. В сгенерированных картинках это качество не полноценно воспроизведено — текстуры выглядят более гладкими и менее проработанными.

И, конечно же, в процессе не обошлось без проблем с появлением дополнительных рук, лиц и людей. Приходилось перегенерировать изображения несколько раз, чтобы устранить такие ошибки и добиться более точного соответствия запросу.

Вопреки использованию современных слов и фраз в промптах, модель всё так же продолжала создавать изображения в стиле XIX века — архитектура, одежда персонажей, а также общая атмосфера.

В целом, я довольна результатом, особенно учитывая то, что при обучении использовались минимальные настройки. Сцены, на мой взгляд, получились достаточно узнаваемыми, несмотря на все ограничения генерации. Интересно, сколько из них вы сможете угадать!

Используемые генеративные модели

Помимо обученной нейросети, использованной в проекте, также применялся генеративный инструмент Chat GPT в качестве помощника при исправлении возникших ошибок в коде и в формулировке и корректировке промптов.

Ссылка на код