Создание персонализированного стиля для генерации изображений кошек, собак и змей
Основная идея проекта заключается в том, чтобы создать модель, которая бы понимала концепцию стиля, объединяющую три разных типа объектов (кошки, собаки, змеи) в единой визуальной эстетике. Для поддержания интереса и добавления в сгенерированные фотографии своей «изюминки» нейросеть создала достаточно сюрреалистичные изображения
Исходные фотографии для обучения нейросети
Для обучения модели был использован датасет, состоящий из множества фотографий, разделенных на три категории:
Изображения кошек: Разнообразные породы и окрасы, в различных позах и условиях (домашние, на прогулке).
Изображения собак: Фотографии разных пород (от маленьких той-терьеров до крупных собак), в том числе в обнимку с людьми, на прогулке, играющих.
Изображения змей: Фотографии различных видов змей (полозы, удавы и др.) в естественной среде (на камнях, траве, ветках), а также на однородном фоне для лучшего выделения текстуры и формы.
Полученные изображения
В итоге была получена модель, которая генерирует не реалистичные изображения, а абстрактные, переплетенные композиции.
На выходе мы видим изображения, где невозможно провести четкую границу между кошкой, собакой и змеей. Вместо трех отдельных животных мы наблюдаем единый, сложный, абстрактный организм, состоящий из узнаваемых фрагментов. Лапы, морды, хвосты и изогнутые тела змей сплетены в причудливый узор, напоминающий эскиз сюрреалистического художника.
Модель усвоила не просто «коллаж», а именно принцип «переплетения». Вместо наложения слоев, как в фотоколлаже, мы видим взаимопроникновение и слияние форм. Границы между животными исчезают, их части становятся неотличимы друг от друга.
Несмотря на абстракцию, отдельные элементы остаются узнаваемыми. Можно различить характерные черты кошачьей морды, собачьи уши, изогнутое тело змеи. Однако они не складываются в цельные фигуры, а служат «строительными блоками» для общей композиции.
Модель демонстрирует богатую вариативность. В зависимости от промпта, одни и те же элементы могут образовывать разные композиции: более «хаотичные», где переплетение максимально плотное, или более «структурированные», где можно проследить отдельные силуэты, все равно сливающиеся в единую форму.
Ключевая особенность — это гибридизация. Форма змеи может быть одновременно и хвостом кота, и частью тела собаки. Модель научилась комбинировать эти элементы, создавая образы, которые сложно однозначно классифицировать, что и является главной целью проекта.
Обработка нейросетью исходных данных
Модель SDXL, используя LoRA, изучила взаимосвязь между всеми обучающими изображениями. Однако, вместо того чтобы выучить конкретные композиции, она выделила и усилила идею «переплетения», сформулировав ее из разнообразия поз и ракурсов животных. Мы ей дали понять, что стиль — это не набор правил монтажа, а способ создания единой, неделимой формы из разных частей.
По запросу «dog cat and snake hugging», модель не пыталась скомпоновать три отдельных объекта в объятия. Вместо этого она применила выученный принцип и создала единую, переплетенную сущность, где «объятие» интерпретируется как сложность разделения персонажей. Это демонстрирует высокий уровень творческого обобщения — модель не просто применяет шаблон, а использует усвоенный принцип для создания новой, уникальной композиции.
Выводы по проекту
Проект успешно достиг своей цели. Обученная модель Stable Diffusion XL + LoRA позволяет генерировать не просто коллажи, а абстрактные, переплетенные образы, где кошки, собаки и змеи сливаются в единое, сюрреалистическое целое. Результаты демонстрируют, что модель не просто копирует стиль, а научилась творчески применять принцип органичной интеграции и гибридизации, создавая уникальные, неожиданные и эстетически цельные композиции.
Источник исходных данных для реализации проекта
В качестве источника изображений использована платформа kaggle. Датасет представлен под лицензией CC0 1.0 Universal, что позволяет использовать его в своих целях.
Программа и её алгоритм: https://disk.yandex.ru/d/yGUqrK6gufKu_g




