Исходный размер 1140x1600

Обучение нейросети стилю kokoski

Проект принимает участие в конкурсе

Иллюстрированные миры: генерация образов котов в эстетике книжной графики

О проекте

Идея проекта в исследовании возможностей генеративных нейросетей в воспроизведении художественного стиля книжной иллюстрации через образ кота.

В качестве основы используется набор иллюстраций с котами, выполненных в стилистике классических книжных иллюстраций. Эти изображения формируют визуальный язык проекта: мягкие линии, акварельные текстуры, выразительная мимика.

С помощью обучения модели Stable Diffusion создаётся генеративная система, способная не просто воспроизводить отдельные изображения, а интерпретировать стиль и применять его к новым сценам, сохраняя целостность художественного подхода.

Цель

Создать модель, которая генерирует изображения котов в едином художественном стиле, характерном для книжных иллюстраций, передавая: • атмосферу (уют, сказочность, лёгкая меланхолия или юмор) • визуальные особенности (линии, цвет, композиция)

Ожидаемый результат

Серия изображений, объединённых: • единым стилем • общим персонажем (кот) • ощущением «иллюстраций к книге, которой не существует»

Каждое изображение показывает сцену.

Исходный датасет

Процесс обучения

Я взяла предоставленный исходный код и первым делом все настроила — для этого загрузила необходимые библиотеки, а затем датасет из 11 иллюстраций с котами.

Исходный размер 822x1103

код загрузки изображений

Далее я создала ключ на Hugging Face и приступила к обучению нейросети.

В итоге обучение получилось только с 3 попытки и каждая попытка занимала около часа.

Исходный размер 633x403

код обучения

Что получилось

Для первого изображения я написала простой и короткий заапрос, чтобы протестировать как нейросеть запомнила референсные изображения.

Промт: «A picture of a cute cat»

Исходный размер 1024x1024

Как видим нейросеть хорошо поняла датасет и смогла выдержать стиль, подобный книжным иллюстрациям.

Также она использует в генерациях окраски характерные темные полосочки на морде кота. Благодаря этому на всех генерациях получается единый «персонаж».

Кот в динамичной, игровой позе, создаёт ощущение сцены из иллюстрированной книги, а не статичного изображения. Нейросеть смогла передать характерную для книжной графики мягкую цветовую палитру и текстурность, избегая фотореализма.

Промт: «A picture of a cat stretching in a sunny meadow»

Исходный размер 1024x1024

Кот в одежде, похожий на малеького мальчика из советских картинок усиливает ощущение персонажа из книжной иллюстрации. Нейросеть успешно передала винтажную эстетику: мягкие цвета, аккуратную штриховку и текстуру бумаги.

Промт: «A picture of a kitten wearing a cap and pants with suspenders»

Исходный размер 1024x1024

Кошка представлена в более детализированном образе с акцентом на декоративные элементы, что усиливает ощущение персонажа из старинной иллюстрированной книги.

Промт: «A picture of a beautiful cat in a lace pink dress with a bow»

Исходный размер 1024x1024

В данной серии изображений кот представлен в разных композициях — от более общей сцены до крупного портрета, что создаёт ощущение вариативности внутри единого визуального языка. Нейросеть стабильно передаёт характерную текстуру штриховки, приглушённую палитру, а добавление элементов (бабочки, растительность) усиливает сюжетность и «живость» сцен. При этом изображения отличаются степенью детализации и ракурсом, что демонстрирует способность модели адаптировать один и тот же стиль под разные типы визуальных решений, сохраняя целостность серии.

Промт: «A picture of a cat admiring butterflies and looking at them attentively»

Исходный размер 1024x1024

Кот напоминает персонажа из классической иллюстрированной книги или гравюры. Такой результат показывает способность не только воспроизводить стиль, но и переносить его на более сложные и стилизованные образы персонажей.

Промт: «A picture of a serious cat in a blue suit, shirt, bow tie, and hat»

Исходный размер 1024x1024

Кот в спокойной, бытовой сцене трогает цветы лапкой, что усиливает ощущение иллюстрации из книги с тихим, наблюдательным настроением. Такой результат подчёркивает способность модели создавать не только персонажей, но и атмосферные сцены.

Промт: «A picture of a cat playing with white flowers in a vase»

Исходный размер 1024x1024

Итоги

Результаты работы искусственного интеллекта не идеальны, но у нее получилось довольно близко приблизиться к заданной стилистике.

К примеру, нейросеть смогла сохранить окраску кота на всех изображениях без упоминания в промптах, а это отличный результат для обучения на небольшом датасете.

Готовый код

Папка с генерациями

В проекте были использованы Stable Diffusion для генерации изображений.

Обучение нейросети стилю kokoski
Проект создан 24.03.2026
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше