Котик Шеф и его 9 жизней на BRND

[Концепция проекта]

В моей жизни есть маленький хвостатый друг, его зовут Шеф. Он не просто мой любимый котик, а настоящий член семьи.

С самого первого дня, как он появился в нашем доме, мне хотелось запомнить каждый момент его взросления: как он спит, свернувшись клубком, как играет, как внимательно наблюдает за миром вокруг, как по-своему «работает» — охотится, исследует, требует внимания и любви.

Исходный размер 4960x1530

Примеры изображений, использованных для обучения генеративной модели котенка Шефа

Как и любой кот, Шеф живёт своей неспешной, наполненной простыми радостями жизнью. В его мире всё устроено идеально. Но однажды я задумалась:

А что, если это только одна из его жизней?

Существует известная мысль о том, что у котов девять жизней. И мне стало интересно — какими могли бы быть эти другие жизни Шефа? Чем бы он занимался? Каким бы он был в других реальностях?

Исходный размер 4960x1530

Примеры изображений, использованных для обучения генеративной модели взрослого Шефа

Этот проект — попытка представить эти альтернативные жизни.  С помощью генеративной нейросети я обучила модель на образ своего котика, чтобы сохранить его узнаваемость, и преобразовала его в разные профессии и сценарии. Так родилась серия изображений, в которой один и тот же кот проживает множество разных жизней.

[Применение генеративной модели]

В проекте использовалась генеративная модель Stable Diffusion XL (SDXL), дообученная на собственном датасете изображений кота Шефа с помощью метода DreamBooth + LoRA.

Цель применения генеративной модели:

— адаптировать нейросеть под конкретного котика; — сохранить узнаваемость Шефа; — создать серию новых изображений, где один и тот же кот представлен в разных профессиях и жизненных сценариях.

Исходный размер 2480x765

Результирующие изображения Шефа в профессиях: учитель, полицейский, ученый

Исходный размер 1170x1170

Результирующее изображение Шефа в профессии полицейского

Дополнительно в проекте использовались:

BLIP — для автоматической генерации текстовых описаний изображений на этапе подготовки датасета; ChatGPT — создание и уточнение текстовых промптов, оптимизация параметров обучения для снижения потребления памяти при работе в облачной среде

Исходный размер 2480x765

Результирующие изображения Шефа в профессиях: строитель, шаман, пекарь

[Этапы работы]

1. Сбор датасета Я собрала набор из 39 собственных фотографий своего кота Шефа, включая: разные ракурсы, условия освещения, изображения котёнка и взрослого кота.

2. Подготовка данных Изображения были приведены к квадратному формату (разрешение 512×512 пикселей), что обеспечило стабильность процесса обучения модели.

Для части датасета я использовала модель BLIP, которая автоматически создала текстовые описания изображений. Эти подписи применялись на этапе обучения, чтобы модель лучше связывала визуальные признаки с текстом.

Исходный размер 2480x765

Результирующие изображения Шефа в профессиях: пожарный, фермер, повар

Исходный размер 1170x1170

Результирующее изображение Шефа в профессии сушиста

3. Обучение модели Модель Stable Diffusion XL была дообучена с использованием метода DreamBooth с применением LoRA.

В процессе обучения модель запоминала уникальные визуальные характеристики кота Шефа.

4. Генерация изображений После обучения я вручную писала текстовые запросы, в которых описывала разные профессии и сценарии.

Так Шеф оказался в новых ролях и стал героем серии изображений, где он проживает свои «девять жизней».

Исходный размер 2480x765

Результирующие изображения Шефа в профессиях: кондитер, мясник, металлург

[Код и процесс обучения]

Исходный размер 2480x249

Подключаю Google Drive и проверяю наличие GPU, чтобы обучать модель быстрее и сохранять файлы проекта в облаке.

Исходный размер 2469x246

Устанавливаю нужные библиотеки и скачиваю готовый скрипт для обучения Stable Diffusion XL методом DreamBooth с LoRA.

Исходный размер 2469x503

Задаю папку с датасетом и папку для сохранения результата, а также настраиваю среду для ускоренного обучения.

Исходный размер 2469x1211

Автоматически создаю текстовые описания для фотографий с помощью BLIP, чтобы модель лучше связывала изображение и текст.

Исходный размер 2469x453

Подготовка датасета. Сформирован файл metadata.jsonl и проверена корректность структуры данных.

Исходный размер 2469x719

Запускаю обучение SDXL на моём датасете: модель дообучается и запоминает визуальные особенности кота Шефа.

Исходный размер 2469x820

Загружаю базовую модель и добавляю обученные LoRA-веса, чтобы использовать уже дообученную версию Шефа для генерации.

Исходный размер 2469x439

Генерирую изображения по вручную написанным промптам, меняя профессию, сцену и настроение кадра.

[Визуальный анализ]

Несмотря на разнообразие сцен, в изображениях сохраняются ключевые особенности котика:

— чёрно-белый окрас — форма мордочки — выразительные глаза

Это говорит о том, что модель успешно усвоила внешний облик Шефа и может воспроизводить его в новых контекстах.

Исходный размер 2480x765

Результирующие изображения Шефа в профессиях: повар, часовщик, пилот

Исходный размер 1170x1170

Результирующее изображение Шефа в профессии детектива

Различия между изображениями:

— освещение (от мягкого студийного до драматического) — композиция (портреты и сценические кадры) — стиль (от реалистичного до стилизованного)

В некоторых изображениях заметно влияние базовой модели Stable Diffusion XL: она добавляет общую визуальную выразительность и художественную стилизацию, но при этом хвостик остаётся узнаваемым.

Это важно для демонстрации того, что модель не просто генерирует случайного кота, а сохраняет индивидуальность конкретного котика.

[Серия изображений котика Шефа]

Исходный размер 3708x3084

Результирующая серия изображений котика Шефа в разных профессиях

Итоговая серия изображений показывает Шефа в разных жизненных ролях и профессиях. В каждой работе он остаётся узнаваемым, несмотря на смену контекста, окружения и визуального стиля.

Результаты генерации показывают, что модель успешно справилась с задачей:

— сохранила визуальную идентичность персонажа при изменении сценариев; — корректно перенесла его в разные профессиональные и сюжетные контексты; — обеспечила достаточную вариативность изображений без потери узнаваемости.

При этом в отдельных изображениях можно заметить влияние базовой модели — это проявляется в стилизации и некоторых неточностях, однако в целом это не разрушает образ и остаётся в рамках ожидаемого поведения генеративной модели.

Мне было очень интересно работать над этим проектом. В какой-то момент я поймала себя на мысли: а кем бы он был, если бы нужно было выбрать только одну жизнь?

«Мы часто думаем, кем могли бы стать. Но, возможно, важнее — кем мы остаёмся.»

>>> Блокнот с кодом

>>> Ссылка на датасет

Stable Diffusion XL 1.0 Цель: базовая генеративная модель, основа для дальнейшего дообучения.
DreamBooth + LoRA Цель: адаптация базовой модели через дообучение.
BLIP (Bootstrapping Language-Image Pre-training) Цель: автоматическая генерация текстовых описаний.
ChatGPT Цель: создание и уточнение текстовых промптов, оптимизация параметров обучения для снижения потребления памяти при работе в облачной среде.