Концепция

Проект про обучение нейросети я решил делать, обучая модель генерировать древние вазы.
Концептуально проект не содержит какой-то глубокой философии, это генератор античных ваз в стиле музейного каталога. Чтобы как-то применять на практике, можно опубликовать обученную LoRA на Hugging Face, и любой художник/дизайнер может использовать её чтобы генерировать контент в стиле греческой керамики для своих проектов.
Выбрал вазы я, во-первых, потому что вазы и прочие античные сосуды — это достаточно интересные объекты с точки зрения разнообразия формы и интересно было посмотреть как их интерпретирует нейронка.
Во-вторых, потому что мне не хотелось искать какие-то работы без авторских прав или как-то собирать из своих датасет в определенном стиле, и намного более удобным вариантом выглядело взять, и c посмощью Met Collection API по тегам выкачать кучу объектов, которые уже давно в общественном достоянии.
Датасет
И, таким образом, я из коллекции The Metropolitan Museum of Art собрал античных датасет ваз по тэгам: «amphora», «kylix», «krater» и т.д
Однако, не с первого раза получилось, оказалось, что у них там побитых ваз, в виде осколков, больше чем целых раз так 5, поэтому пришлось поставить фильтры на фрагменты.


Далее я написал код, чтобы все вазы обрезались под квадрат со стороной 1024, обозвал стиль «sks ancient vase», чтобы нейронка мне не генерировала вазы которые уже видела, вроде бы все, но…
Некая оплошность

Произошел конфуз, так называемый. Так как я кодом половину изображений изрезал в нечто странное, нейронка училась на неполноценных вазах, и по итогу процентов 70 ваз, которые она мне генерировала, не влезали в кадр.
Это достаточно бысто поправилось тем, что в обновленном датасете вазы все стали полноценными, но с белыми полосами по краям, что меня, в целом, не смущало, потому что sks ancient vases стали нормальными.
«sks ancient vase» — ai slop collection

В итоге, я считаю, что хорошо научил эту стейбл дифужн 1-5, потому что вазы похожи на вазы, в первую очередь, по форме, даже если просить у нее в промте нечто замысловатое.
Таким образом, получилась мини коллеция гончарного нейрослопа в различных техниках.
Все последующие изображение генерировались по промту «a photo of sks greek vase, ancient greek pottery» с добавлением к нему прилагательных описывающих желаемую форму, цвет и т. д.

После формы я решил попросить нейронку делать вазы с различными замысловатыми фигуративными узорами, с чем она тоже неплохо справилась, сохраняя странные вещи которые я ей писал в рамках представленного стиля ваз.
Вот, к примеру, человек превращается в дерево.

И, наконец, черезвычайно цветастые античные вазы, которых в принципе, быть не могло у нее тоже аутентичные вышли.
Выводы
Что можно сказать?
Большую часть времени заняла не сама нейросеть, а сбор и чистка датасета — фильтрация осколков, подбор тэгов, белые поля вместо кропа. И качество датасета напрямую определяло качество результата.
А также триггер-слово, в данном случае «sks», очень даже эффективный механизм, модель учится активировать стиль только по этому слову и не ломает базовые возможности.
ИИ инструменты
Для помощи с написанием кода, исправления некоторых моих ошибок и, в целом, ускорения процесса использовался Claude by Anthropic
Для увеличения размера изображений сгенерированных ваз использовался Upscayl
И две странные вазы напоследок!
