Исходный размер 1140x1600

Обучение генеративной модели под стиль мультсериала BoJack Horseman

Концепция

Я люблю мультсериал BoJack Horseman, и особенно меня привлекает то, как нарочито детская рисовка сочетается в нём с серьёзными, взрослыми темами.

Мне стало интересно, сможет ли нейросеть уловить такой контраст — визуальную наивность и внутреннюю иронию. Поэтому я решила обучить её стилю Лизы Ханауолт, художницы-постановщицы сериала, чтобы посмотреть, насколько точно она сможет воспроизвести этот особенный вайб в иллюстрациях.

Исходные изображения

Для датасета были подготовлены 40 изображений — кадров из мультсериала — размером 800×800. На многих изображен главный герой в разных обстоятельствах и пейзажах.

big
Исходный размер 1920x614

Но также в датасет были загружены изображения с другими персонажами — как с людьми, так и с антропоморфными животными.

big
Исходный размер 1920x614
big
Исходный размер 1920x614

Процесс обучения

Процесс обучения начался с выбора среды: бОльшую часть времени я работала в Гугл Collab и разбирала код, предоставленный преподавателем, именно там. Но в конечном итоге мощностей Collab не хватило и над итоговым кодом я работала в Kaggle Notebook.

После установки нужных моделей и библиотек, я загрузила подготовленный заранее датасет в Kaggle.

0

Подготовка датасета

Затем я сгенерировала подписи к изображениям с помощью модели BLIP и создала токен на Hugging Face.

Исходный размер 2110x1262

Часть сгенерированных подписей для наглядности

Ну и наконец запустила само обучение.

Исходный размер 2104x990
0

Выгрузка на HuggingFace

Результаты

Для того, чтобы проверить насколько нейросеть уловила стилистику, я генерировала персонажа-лошадь (главного героя), других животных, а также людей.

Также исключительно из соображений интереса я попробовала генерировать изображения без героев: абстракции и пейзажи, чтобы посмотреть, какие черты стиля отразятся в них.

photo collage in bo jack style, cartoon horse standing on a balcony, the city lights blurring / photo collage in bo jack style, horse in a suit crying alone in the rain

Исходный размер 1024x1024

photo collage in bo jack style, TV screen showing a horse watching himself on TV, infinite recursion

Исходный размер 1024x1024

photo collage in bo jack style, a horse character drowning in a pool of wine

photo collage in bo jack style, cartoon horse stares into the mirror, his reflection slightly distorted, neon lights casting a melancholic glow / photo collage in bo jack style, horse in a bar in red

Как можно заметить с генерацией главного героя нейросеть справляется довольно хорошо, она верно уловила его черты и выражения лица. Представленные изображения отражают характер мультсериала.

Однако при генерации других персонажей сериала меня ждало некоторое удивление: их, в отличие от главного героя, нейросеть генерировала далеко не так приближено к оригинальной стилистике.

pink cartoon cat character in a power suit, speaking confidently at a press conference / anthropomorphic golden retriever in a Hawaiian shirt, laughing

Были чуть более удачные примеры, вроде этих собак, однако в целом практика показала, что лучше всего нейросети удается генерация именно главного героя.

Исходный размер 1024x1024

photo collage in bo jack style, a depressed dog in a trench coat walking in the rain

С персонажами-людьми получилась совсем неудачная история: их лица и в целом образы оказались для нейросети совсем непосильной на данном этапе задачей.

Исходный размер 1024x1024

photo collage in bo jack style, cartoon woman stands at a party

Цели научить нейросеть рисовать пейзажи передо мной и не стояло, однако мне было просто интересно, как она интерпретирует мой запрос. Как можно видеть понятия «лес» и «город» нейросеть транслирует через образы людей (все таких же багнутых).

forest / big busy city

Интересной мне показалась абстрактная генерация, хотя конечно здесь мы снова видим бесконечные попытки переработать человеческие фигуры.

Исходный размер 1024x1024

photo collage in bo jack style, a surreal dream sequence with floating objects and neon lights

Заключение

В целом нейросеть уловила атмосферу и настроение оригинального мультсериала. Однако видно, как ей сложно справляться с множеством деталей и проработкой оригинального контента. Поэтому в сгенерированных изображениях много неточностей и «артефактов».

*Для генерации промптов использовался чат GPT

Обучение генеративной модели под стиль мультсериала BoJack Horseman
Проект создан 10.04.2025
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше