Обучение нейросети на творчестве Robert Testard на BRND

Идея

Проект посвящён исследованию иллюстративной формы знания, где изображение работает как механизм сборки «сведений» о мире. На материале Robert Testard’s Illustrations for Les secretz de l’histoire naturelle (ок. 1485) меня интересует не только происхождение сюжетов и степень их исторической точности, а сам принцип, по которому текст и картинка создают убедительность — как будто чудо может быть картографировано, а фантазия встроена в структуру фактов. В этих позднесредневековых текстах время и пространство ведут себя иначе, чем в современном научном описании: они не выстраиваются в единую хронологию и географию, а «падают» в одну плоскость воображаемой достоверности.

Цель проекта — обучить генеративную модель воспроизводить это состояние «смешанной достоверности»: способность формировать нарративный ландшафт, где ссылки на источники, картографические намёки и декоративно-описательные жесты создают ощущение цельности мира. Модель должна передавать плотность знаков (где множество сведений упаковано в один визуальный синтаксис), ритм переходов между описанием и чудом, а также визуальную убедительность, возникающую из соседства несовместимых категорий времени и пространства

Датасет

Исходный размер 1588x1050

Для обучения был собран датасет на материале Robert Testard’s Illustrations for Les secretz de l’histoire naturelle (ок. 1485) (https://publicdomainreview.org/collection/secrets-de-l-histoire-naturelle/).

При отборе изображений учитывались следующие критерии:

— единство иллюстраций

Изображения были приведены к квадратному формату и отобраны таким образом, чтобы сохранить визуальную схожесть датасета.

Исходный размер 1446x796

Обучение проводилось с использованием модели Stable Diffusion XL Base 1.0 и метода дообучения LoRA (Low-Rank Adaptation).

В ноутбуке реализованы следующие этапы:

— установка и настройка библиотек diffusers, transformers и accelerate; — загрузка предобученной модели Stable Diffusion XL; — подготовка датасета и указание директории с изображениями; — задание текстового промпта, описывающего обучаемый стиль; — запуск обучения с использованием скрипта train_dreambooth_lora_sdxl.py

После завершения обучения LoRA-веса были подключены к базовой модели Stable Diffusion XL. Генерация изображений выполнялась с использованием текстовых промптов, включающих обученный токен, что позволяло вызывать выученный стиль.

Пример промпта:

" photo of a modern young woman with a small dog standing on a Moscow street, Moscow City skyscrapers in background, holding a smartphone, motion blur of passing cars, strong wind, emotional tension, dramatic lighting, film grain, high contrast, shallow depth of field, urban atmosphere»

Исходный размер 2074x1024

генерации с детализированным промтом

Анализ результатов

Сравнение с исходным датасетом показывает, что модель успешно усвоила ключевые признаки:

— стилистика приложенных иллюстраций — текстура

При подробных промах выдает более качественные изображения

Описание применения генеративной модели

В проекте использовалась модель Stable Diffusion XL Base 1.0 с дообучением методом LoRA.

Обучение проводилось в среде Google Colab с использованием библиотеки diffusers и официального скрипта DreamBooth LoRA.

Цель применения — обучение модели на датасете средневековых иллюстраций и генерация новой серии изображений в данном стиле.

https://colab.research.google.com/drive/1BsPp0wQlT0pt4P4jtPMwVpbIsc6TDSbf