Идея проекта
В рамках проекта я исследовал возможность обучения генеративной модели на ограниченном датасете для воспроизведения визуального языка персонажей из вселенной Pokémon. Покемоны представляют собой интересный объект для анализа: это не единичный стиль, а система устойчивых признаков — упрощённая анатомия, выразительные силуэты, яркая цветовая палитра, акцент на глазах и характерных деталях (уши, хвосты, формы тела).
Часть изображений, использованных для обучения модели
Задача заключалась не в копировании конкретных персонажей, а в том, чтобы выделить и зафиксировать эти признаки как визуальный «алфавит», который модель сможет использовать для генерации новых существ.
Для обучения был собран датасет из 32 изображений покемонов. Изображения были приведены к единому формату, что позволило модели сфокусироваться на структуре персонажей, а не на различиях в композиции или разрешении.
Процесс обучения
Для дообучения использовался подход LoRA, позволяющий адаптировать базовую модель Stable Diffusion без изменения её основных весов. Это делает обучение более быстрым и устойчивым даже при небольшом объёме данных.
Подписи к изображениям генерировались автоматически с помощью модели BLIP, после чего к ним добавлялся единый префикс («photo of a TOK character»), задающий концептуальную рамку для обучения.
Обучение и генерация выполнялись в среде Google Colab с использованием библиотек Hugging Face (Diffusers, Transformers, PEFT).
Результаты генерации
prompt: a photo of a TOK character, turtle-like creature
В процессе обучения модели удалось зафиксировать ключевые характеристики визуального языка покемонов.
Сгенерированные изображения демонстрируют: узнаваемую стилизацию персонажей; упрощённые, но выразительные формы; характерную цветовую палитру; акцент на «персонажности» — крупные глаза, эмоциональность, читаемые силуэты.
prompt: a photo of a TOK character, turtle alike creature with flowers on it
Модель не воспроизводит конкретных покемонов, но создаёт новых существ, которые воспринимаются как принадлежащие той же вселенной.
Особенно заметно, что нейросеть усвоила принципы: сочетания цветов (контрастные, но гармоничные); построения тела (простые геометрические формы); визуальной иерархии деталей.
prompt: a photo of a TOK character, yellow mouse-like cartoon creature with electro powers
Также в процессе работы для подготовки текста и структуры презентации был использован ИИ-инструмент ChatGPT (chatgpt.com)