// КОНЦЕПЦИЯ
Иероним Босх — художник, чьи работы известны по всему миру своими сюрреалистичными сюжетами, гибридными существами, невозможными конструкциями и бесконечной детализацией. Всё это сегодня невольно ассоциируется с ранними экспериментами генеративных сетей, когда алгоритмы только учились создавать изображения и выдавали странные и гротескные результаты.
Для своего проекта я решила научить нейросеть генерировать не целые картины Босха, а именно их фрагменты. Это решение было принято, поскольку картины Босха редко воспринимают целостно; чаще принято рассматривать отдельные сцены, фигуры и странные объекты. Зачастую достаточно увидеть одно гибридное существо или характерный пейзаж, чтобы сразу узнать руку мастера. Поэтому мне захотелось обучить нейросеть воспроизводить мир Босха так, как мы сами его рассматриваем: по кусочкам, фрагментам, отдельным элементам, которые в сумме и создают эффект той самой «Босховской» вселенной.
// ИСХОДНЫЕ ИЗОБРАЖЕНИЯ
Из всех произведений Босха я решила остановить свой выбор на двух его самых известных триптихах — «Сад земных наслаждений» и «Страшный суд». Поскольку моей целью было научить нейросеть генерировать именно фрагменты в стилистике Босха, а не работы целиком, то я нарезала триптихи на фрагменты размером 512×512.
Всего получилось 190 фрагментов, на которых затем обучалась модель.
«Сад земных наслаждений» // Иероним Босх // 1505–1513 гг.
Примеры фрагментов, на которых затем обучалась модель («Сад земных наслаждений»)
«Страшный суд» // Иероним Босх // 1504 г.
Поскольку «Страшный суд» имеет вверху скругленную форму, я вручную удалила фрагменты, на которых был виден лишний фон, чтобы избежать ошибок при обучении нейросети.
Примеры фрагментов, на которых затем обучалась модель («Страшный суд»)
// ОПИСАНИЕ ПРИМЕНЕНИЯ ГЕНЕРАТИВНОЙ МОДЕЛИ
В ходе выполнения проекта были задействованы следующие инструменты:
— Stable Diffusion для обучения генеративной модели — Google Colab для запуска и выполнения кода — Hugging Face для генерации токена и публикации модели — Deepseek для помощи в создании промптов для генерации итоговых изображений
// РЕЗУЛЬТИРУЮЩАЯ СЕРИЯ + КОММЕНТАРИИ
- «Озеро и его существа» — «in the style of BOSCH, grotesque lake with strange creatures emerging from water, detailed medieval fantasy painting»
- «Фонтан» — «in the style of BOSCH, grotesque fountain with strange animal heads and surreal water flows, detailed medieval painting»
- «Адский пейзаж» — «in the style of BOSCH, really dark burning hellish landscape with tortured figures and strange machines, detailed medieval oil painting»
- «Гибриды с рыбьими головами и птичьими ногами» — «in the style of BOSCH, grotesque hybrid creature with fish head and bird legs, detailed medieval fantasy painting»
- «Сад существ» — «in the style of BOSCH, medieval grotesque painting, contemporary garden of earthly delights with modern elements, surreal creatures, detailed oil painting»
- «Средневековый город» — «in the style of BOSCH, impossible medieval city with strange architecture and floating structures, detailed grotesque painting»
- «Адский оркестр» — «in the style of BOSCH, hellish orchestra with demonic musicians and strange instruments, detailed grotesque painting»
- «Адская ярмарка» — «in the style of BOSCH, grotesque medieval market with strange merchants selling impossible items, detailed painting»
- «Пиршество существ» — «in the style of BOSCH, grotesque feast with hybrid creatures and impossible food, detailed medieval painting»
- «Музыканты» — «in the style of BOSCH, grotesque musician playing strange instrument, detailed medieval painting»
- «Адская кухня» — «in the style of BOSCH, hellish kitchen with demonic chefs preparing strange food, detailed painting»
- «Руины» — «in the style of BOSCH, ruined medieval city with strange creatures living among broken towers, detailed grotesque painting»
«Озеро и его существа» // «Фонтан»
На мой взгляд, нейросеть успешно справилась с освоением визуального языка Босха. На сгенерированных изображениях отчетливо чувствуется фактура старой живописи, например, мелкие трещинки, которые появляются на холсте со временем. Цветовая гамма тоже близка к оригиналу: приглушенные землистые тона, холодные голубоватые оттенки в райских сценах и коричнево-красные в адских. Модель также уловила разницу между «райскими» и «адскими» промптами — в первом случае изображения получаются более светлыми, с небом и водоемами во втором — более хаотичными, мрачными, с всполохами огня. Композиционно нейросеть тоже повторяет босховскую логику: фигуры часто собираются в плотные группы, толпы существ взаимодействуют друг с другом, создавая многослойные сцены.
«Адский пейзаж» // «Гибриды с рыбьими головами и птичьими ногами»
«Сад существ» // «Средневековый город»
Конечно, без нейросетевых особенностей не обошлось. Анатомия у персонажей часто страдает: руки и ноги могут расти не из того места, количество конечностей превышает норму, и в целом фигуры буквально слипаются друг с другом, превращаясь в странные составные конструкции. Однако эти ошибки, с моей точки зрения, удивительным образом не разрушают общее впечатление. Босх сам был мастером гибридных форм, его существа часто состоят из фрагментов разных животных и предметов. То, что нейросеть довела этот принцип до абсурда, вписывается в логику художника. Если не всматриваться придирчиво, на первую секунду сгенерированные фрагменты вполне можно принять за оригинальные детали босховских триптихов.
«Адский оркестр» // «Адская ярмарка»
«Пиршество существ» // «Музыканты»
Лучше всего нейросеть справилась с воспроизведением характерных элементов: маленькие фигуры в фантастических пейзажах, группы странных существ, архитектурные элементы. Модель уловила общее настроение, однако сложнее ей далась логика отдельных сцен. Иногда композиция становится слишком хаотичной даже для Босха, а предметы теряют узнаваемость, превращаясь в нечитаемые формы. Также модель иногда «подглядывает» за конкретными фрагментами из обучения и повторяет их слишком близко, а не создает новые вариации. Но в целом баланс между узнаваемостью и новизной соблюден.
«Адская кухня» // «Руины»
Моя главная задумка была в том, чтобы научить нейросеть генерировать именно фрагменты, а не целые картины — и это сработало. Модель не пытается выстроить полноценную композицию триптиха, а выдает именно те детали, которые хочется рассматривать вблизи. Это соответствует тому, как зритель обычно воспринимает Босха: через отдельные сцены и маленькие сюжеты. Несмотря на технические шероховатости, результат получился именно тем, чем я задумывала — генерации выглядят как фрагменты неизвестных картин мастера, которые он гипотетически мог бы создать.
// ПРОЦЕСС ОБУЧЕНИЯ
Сначала я проверила GPU и установила все необходимые библиотеки. Затем скачала готовый скрипт обучения Dreambooth LoRA и создала папку bosch, чтобы загрузить в неё все нарезанные фрагменты картин Босха для обучения.
Я загрузила нужные файлы и прописала функцию image_grid, после чего вывела первые шесть фрагментов, чтобы убедиться, что все файлы загрузились корректно и визуально подходят для обучения.
Затем для каждого фрагмента я сгенерировала описание с помощью BLIP с добавлением префикса («in the style of BOSCH, medieval grotesque painting, „)
Все пары „имя файла — описание“ были сохранены в файл metadata.jsonl. В конце я для проверки вывела первые три строки. После генерации подписей я удалила модель BLIP из памяти, чтобы освободить ресурсы для обучения модели.
Затем я авторизовалась на Hugging Face и запустила обучение. Параметры обучения я подобрала так: разрешение 512×512 пикселей, 500 шагов, чекпоинты через каждые 250 шагов. Обучение заняло около часа.
После успешного обучения я загрузила модель на Hugging Face, чтобы она была доступна для генерации новых изображений в любой момент.
После того как модель обучилась и загрузилась на Hugging Face, я подготовила её к генерации и начала экспериментировать с промптами.
// ЗАКЛЮЧЕНИЕ
В этом проекте я попыталась научить нейросеть видеть мир так, как его видел Иероним Босх. Используя фрагменты его картин, модель обучилась передавать характерную текстуру масляной живописи, приглушённую цветовую гамму и ту самую гротескную пластику, которая делает Босха узнаваемым с первых секунд.
Проект показал, что у нейросетей и Босха действительно есть что-то общее: и художник, и модель создают миры, где привычные формы распадаются и собираются заново в странных, пугающих и завораживающих комбинациях.
«Сад земных наслаждений» (фрагмент) // Иероним Босх // 1503–1515 гг.