Идея проекта
Целью данного проекта стало создание и обучение нейросети рисовать авторского персонажа — фиолетового динозаврика с крыльями. Идея родилась из желания соединить традиционное рисование с современными технологиями: я нарисовала 15 изображений своего персонажа в разных позах, а затем обучила Stable Diffusion воспроизводить его в новых, ранее не существовавших ситуациях.
Почему динозаврик? Этот образ обладает рядом узнаваемых характеристик: фиолетовый цвет, наличие двух крыльев, милый мультяшный стиль, круглые глаза, простота форм. Такая комбинация признаков позволяет проверить, насколько хорошо нейросеть способна уловить и воспроизвести сложные сочетания визуальных элементов.
Для обучения были подготовлены мои собственные рисунки дино. Изображения имели:
Квадратный формат
Однотонный фон
Единый художественный стиль (цифровой рисунок, чёткие линии)
Разнообразие поз и ракурсов
Список использованных в проекте инструментов:
— Stable Diffusion — обучение генеративной нейросети под свой стиль; — Google Colab — выполнение кода и генераций; — LoRA — метод дообучения; — HuggingFace — обучение нейросети;
Исходные изображения персонажей
нападающий и грустный дино
спящий и боковой ракурс дино
Описание процесса обучения
Сначала потребовалось загрузить все необходимые для работы библиотеки. Я установила diffusers, transformers, accelerate, peft, torch и xformers.
Далее нужно было загрузить изображения с компьютера в Google Colab. Я использовала встроенную функцию files.upload ().
Далее было создание датасета и подготовка данных. Присвоение каждому изображению текстового описания — промпта с триггерным словом zadino.
первые генерации
Следующим шагом была загрузка модели Stable Diffusion. Для дообучения я использовала метод LoRA.
начало получаться лучше
Самый важный этап — обучение модели. Я установила 100 эпох (полных проходов по всем изображениям).
Обученная модель позволяла генерировать новые изображения по текстовым описаниям. Для улучшения качества я использовала детальные промпты, в которых явно указывала цвет (#6C6994), наличие двух крыльев, форму глаз.
Всего было сгенерировано более 60 изображений в различных сценах. Я сохранила их и собрала в один ZIP-архив вместе с исходными рисунками для удобства.
Качество результата
Консистентность стиля: единый мультяшный стиль во всех 60+ изображениях.
Передача особенностей: фиолетовый цвет, крылья, глаза — ключевые признаки переданы успешно.
Вариативность: разнообразие сцен от бытовых до фантастических.
Подводя итог этого проекта, важно осмыслить главное: нейросеть — это мощный, но всё же инструмент в руках художника, а не самостоятельный творец. За время работы над проектом я поняла одну важную вещь: нейросеть — это не конкурент художнику, а его соавтор. Она берёт на себя рутинную, техническую часть — быструю генерацию, перебор вариантов, масштабирование идеи. Но именно художник остаётся тем, кто задаёт направление, определяет качество, несёт ответственность за конечный результат.




