[Концепция проекта]
В моей жизни есть маленький хвостатый друг, его зовут Шеф. Он не просто мой любимый котик, а настоящий член семьи.
С самого первого дня, как он появился в нашем доме, мне хотелось запомнить каждый момент его взросления: как он спит, свернувшись клубком, как играет, как внимательно наблюдает за миром вокруг, как по-своему «работает» — охотится, исследует, требует внимания и любви.
Примеры изображений, использованных для обучения генеративной модели котенка Шефа
Как и любой кот, Шеф живёт своей неспешной, наполненной простыми радостями жизнью. В его мире всё устроено идеально. Но однажды я задумалась:
А что, если это только одна из его жизней?
Существует известная мысль о том, что у котов девять жизней. И мне стало интересно — какими могли бы быть эти другие жизни Шефа? Чем бы он занимался? Каким бы он был в других реальностях?
Примеры изображений, использованных для обучения генеративной модели взрослого Шефа
Этот проект — попытка представить эти альтернативные жизни. С помощью генеративной нейросети я обучила модель на образ своего котика, чтобы сохранить его узнаваемость, и преобразовала его в разные профессии и сценарии. Так родилась серия изображений, в которой один и тот же кот проживает множество разных жизней.
[Применение генеративной модели]
В проекте использовалась генеративная модель Stable Diffusion XL (SDXL), дообученная на собственном датасете изображений кота Шефа с помощью метода DreamBooth + LoRA.
Цель применения генеративной модели:
— адаптировать нейросеть под конкретного котика; — сохранить узнаваемость Шефа; — создать серию новых изображений, где один и тот же кот представлен в разных профессиях и жизненных сценариях.
Результирующие изображения Шефа в профессиях: учитель, полицейский, ученый
Результирующее изображение Шефа в профессии полицейского
Дополнительно в проекте использовались:
BLIP — для автоматической генерации текстовых описаний изображений на этапе подготовки датасета; ChatGPT — создание и уточнение текстовых промптов, оптимизация параметров обучения для снижения потребления памяти при работе в облачной среде
Результирующие изображения Шефа в профессиях: строитель, шаман, пекарь
[Этапы работы]
1. Сбор датасета Я собрала набор из 39 собственных фотографий своего кота Шефа, включая: разные ракурсы, условия освещения, изображения котёнка и взрослого кота.
2. Подготовка данных Изображения были приведены к квадратному формату (разрешение 512×512 пикселей), что обеспечило стабильность процесса обучения модели.
Для части датасета я использовала модель BLIP, которая автоматически создала текстовые описания изображений. Эти подписи применялись на этапе обучения, чтобы модель лучше связывала визуальные признаки с текстом.
Результирующие изображения Шефа в профессиях: пожарный, фермер, повар
Результирующее изображение Шефа в профессии сушиста
3. Обучение модели Модель Stable Diffusion XL была дообучена с использованием метода DreamBooth с применением LoRA.
В процессе обучения модель запоминала уникальные визуальные характеристики кота Шефа.
4. Генерация изображений После обучения я вручную писала текстовые запросы, в которых описывала разные профессии и сценарии.
Так Шеф оказался в новых ролях и стал героем серии изображений, где он проживает свои «девять жизней».
Результирующие изображения Шефа в профессиях: кондитер, мясник, металлург
[Код и процесс обучения]
Подключаю Google Drive и проверяю наличие GPU, чтобы обучать модель быстрее и сохранять файлы проекта в облаке.
Устанавливаю нужные библиотеки и скачиваю готовый скрипт для обучения Stable Diffusion XL методом DreamBooth с LoRA.
Задаю папку с датасетом и папку для сохранения результата, а также настраиваю среду для ускоренного обучения.
Автоматически создаю текстовые описания для фотографий с помощью BLIP, чтобы модель лучше связывала изображение и текст.
Подготовка датасета. Сформирован файл metadata.jsonl и проверена корректность структуры данных.
Запускаю обучение SDXL на моём датасете: модель дообучается и запоминает визуальные особенности кота Шефа.
Загружаю базовую модель и добавляю обученные LoRA-веса, чтобы использовать уже дообученную версию Шефа для генерации.
Генерирую изображения по вручную написанным промптам, меняя профессию, сцену и настроение кадра.
[Визуальный анализ]
Несмотря на разнообразие сцен, в изображениях сохраняются ключевые особенности котика:
— чёрно-белый окрас — форма мордочки — выразительные глаза
Это говорит о том, что модель успешно усвоила внешний облик Шефа и может воспроизводить его в новых контекстах.
Результирующие изображения Шефа в профессиях: повар, часовщик, пилот
Результирующее изображение Шефа в профессии детектива
Различия между изображениями:
— освещение (от мягкого студийного до драматического) — композиция (портреты и сценические кадры) — стиль (от реалистичного до стилизованного)
В некоторых изображениях заметно влияние базовой модели Stable Diffusion XL: она добавляет общую визуальную выразительность и художественную стилизацию, но при этом хвостик остаётся узнаваемым.
Это важно для демонстрации того, что модель не просто генерирует случайного кота, а сохраняет индивидуальность конкретного котика.
[Серия изображений котика Шефа]
Результирующая серия изображений котика Шефа в разных профессиях
Итоговая серия изображений показывает Шефа в разных жизненных ролях и профессиях. В каждой работе он остаётся узнаваемым, несмотря на смену контекста, окружения и визуального стиля.
Результаты генерации показывают, что модель успешно справилась с задачей:
— сохранила визуальную идентичность персонажа при изменении сценариев; — корректно перенесла его в разные профессиональные и сюжетные контексты; — обеспечила достаточную вариативность изображений без потери узнаваемости.
При этом в отдельных изображениях можно заметить влияние базовой модели — это проявляется в стилизации и некоторых неточностях, однако в целом это не разрушает образ и остаётся в рамках ожидаемого поведения генеративной модели.
Мне было очень интересно работать над этим проектом. В какой-то момент я поймала себя на мысли: а кем бы он был, если бы нужно было выбрать только одну жизнь?
«Мы часто думаем, кем могли бы стать. Но, возможно, важнее — кем мы остаёмся.»
Stable Diffusion XL 1.0 Цель: базовая генеративная модель, основа для дальнейшего дообучения.
DreamBooth + LoRA Цель: адаптация базовой модели через дообучение.
BLIP (Bootstrapping Language-Image Pre-training) Цель: автоматическая генерация текстовых описаний.
ChatGPT Цель: создание и уточнение текстовых промптов, оптимизация параметров обучения для снижения потребления памяти при работе в облачной среде.




