Обучение Stable Diffusion под стиль «Aeterna Vasa» на BRND

✽ Идея проекта

Проект «Aeterna Vasa» (с лат. «Вечные вазы») — это обучение нейросети Stable Diffusion создавать изображения ваз, которые содержат уникальные паттерны, вдохновленные растительными орнаментами, животным миром и древними образами.

Исходный размер 1920x415

Для формирования обучающей выборки я отобрала изображения со стокового ресурса Freepik

✽ Датасет для обучения модели

Начальным этапом стала настройка рабочей среды в Google Colab. Для корректной работы системных вызовов и корректной установки библиотек я применила исправление кодировки (Locale Fix), установив стандарт UTF-8. Это исключает ошибки при чтении текстовых данных в процессе обучения.

Затем я подключила Google Диск. Это необходимо для прямого доступа к датасету с изображениями ваз и автоматического сохранения весов обученной модели в облачное хранилище.

Исходный размер 1920x829

Техническая база проекта строится на библиотеках diffusers, transformers и accelerate. С их помощью нейросеть обрабатывает данные и обучается новому стилю. Также я загрузила официальный скрипт от Hugging Face, разработанный специально для тренировки LoRA-слоев на архитектуре SDXL.

Завершающим шагом в подготовке стала конфигурация среды вычислений и авторизация на платформе Hugging Face через персональный токен. Это обеспечило синхронизацию проекта с моим профилем для дальнейшего экспорта готовой модели.

Исходный размер 1920x829

Сначала я определила путь к директории Aeterna_Final, где хранятся отобранные стоковые изображения. С помощью библиотеки glob код автоматически находит все файлы форматов .jpg и .png, формируя список путей к исходным данным.

Ключевым действием здесь стало создание файла метаданных metadata.jsonl. Для каждой вазы из датасета была сформирована четкая текстовая инструкция (промпт): «a single ceramic vase in Aeterna Vasa style, pure blank white background»

Это было сделано для того, чтобы во время обучения нейросеть четко ассоциировала каждое изображение с названием стиля «Aeterna Vasa».

В завершение все сформированные пары «файл — описание» были сохранены в формате JSONL. Этот файл служит основным путеводителем для алгоритма обучения, указывая ему, какие именно визуальные признаки стиля нужно извлечь из каждой картинки.

На этом этапе я перешла к работе с изображениями и созданию связей между визуальным контентом и текстовыми командами.

Исходный размер 1920x829

После завершения обучения я перешла к проверке работоспособности модели. Этот этап включает в себя сборку рабочего пайплайна и проведение первых тестовых генераций для оценки качества усвоенного стиля.

Исходный размер 1920x948

Генерации Stable Diffusion

Промты:

✽ a single ceramic vase in Aeterna Vasa style with a pattern of mythical creatures like dragons and phoenixes  

✽ a single ceramic vase in Aeterna Vasa style with a pattern of intricate Japanese cherry blossoms and chrysanthemums

Так как нейросети не генерируют изображения в альфа-канале, у них нет возможности делать прозрачность, они могут ее лишь эмитировать (это все равно будут цветные пиксели), поэтому в моей случае я удалила фон у финальной группы изображений при помощи программы Adobe Photoshop, чтобы осталось только изображение вазы с паттерном.

Исходный размер 2537x1253

Промты:

✽ a single ceramic vase in Aeterna Vasa style with a pattern of graceful cranes and sparrows 

✽ a single ceramic vase in Aeterna Vasa style with a pattern of koi fish swimming in swirling waves

Исходный размер 2537x1253

Промты:

✽ a single ceramic vase in Aeterna Vasa style with a pattern of cunning foxes and majestic stags 

✽ a single ceramic vase in Aeterna Vasa style with a pattern of delicate butterflies and dragonflies

Исходный размер 2537x1253

Промты:

✽ a single ceramic vase in Aeterna Vasa style with a pattern of ripe pomegranates and peaches 

✽ a single ceramic vase in Aeterna Vasa style with a pattern of ancient heroes battling mythological beasts

Вывод

Мне удалось обучить модель генерировать изображения в уникальном стиле «Aeterna Vasa». Она смогла уловить его ключевые эстетические и технические особенности, такие как:

✽ сочетание черного и белого

✽ эффект векторной графики

✽ модель стабильно воспроизводит форму античных и современных ваз

✽ грамотное наложение паттернов на объемную форму сосуда

Важным техническим нюансом стало то, что современные нейросети не умеют генерировать изображения в альфа-канале — у них нет возможности создавать честную прозрачность, они могут лишь имитировать ее цветными пикселями. Поэтому для получения финальной группы изображений я удалила фон в программе Adobe Photoshop, чтобы в итоге остался чистый графический объект, готовый к использованию в дизайне.

Список использованных инструментов:

✽ Stable Diffusion XL (обучение генеративной нейросети под свой стиль) ✽ Hugging Face (получение токена для обучения нейросети) ✽ Google Colab (выполнение кода и генераций) ✽ Adobe Photoshop (пакетная обработка, удаление фона и финальная презентация)

✽ Ссылка на блокнот с кодом