01 Концепция
Мой проект посвящён исследованию визуального стиля bubble design. Основная задача заключалась в создании нейросетевой модели, которая способна воспроизводить не только форму объектов, но и их материальные свойства.
Мне было важно, чтобы модель понимала:
- глянец поверхности
- мягкие тени
- световые блики
- ощущение «надутости» и объёма
Таким образом, проект направлен на изучение того, может ли нейросеть усвоить визуальную логику материала, а не только форму объектов.
02 Исходные изображения

Для обучения модели был собран датасет из 30 изображений, выполненных в эстетике bubble design. В него вошли как абстрактные формы, так и более прикладные объекты — 3D-буквы, логотипы и надувные скульптуры. При отборе изображений я ориентировалась не столько на сюжет, сколько на разнообразие визуальных характеристик материала и формы.
Для обучения использовались изображения из открытых источников с допустимыми лицензиями.


Основное внимание уделялось передаче свойств поверхности. В датасет были включены изображения с различной степенью глянца — от мягкого рассеянного блеска до ярко выраженных зеркальных отражений. Это позволило зафиксировать, как свет ведёт себя на «пластиковой» или силиконовой поверхности и как формируются характерные блики.
Отдельно учитывалась форма объектов. Были выбраны изображения с различными типами объёмов: от простых сфер и каплевидных элементов до более сложных, переплетённых и деформированных структур. Важно было показать не только «идеальный шар», но и вариативность мягких, надувных форм, которые меняют силуэт, но сохраняют общую логику пластичности.
03 Процесс обучения модели
После подготовки датасета я перешла к обучению модели. В качестве базовой архитектуры использовалась модель Stable Diffusion v1.5, позволяющая генерировать изображения на основе текстовых описаний.
Для реализации обучения была использована библиотека diffusers от Hugging Face, а также дополнительные инструменты transformers, accelerate, bitsandbytes и xformers. Эти библиотеки обеспечивают работу с диффузионными моделями, ускорение вычислений и оптимизацию обучения.
Для адаптации модели под выбранный визуальный стиль был использован подход DreamBooth в сочетании с технологией LoRA (Low-Rank Adaptation). Такой метод позволяет дообучать модель, не изменяя её полностью, а добавляя небольшие обучаемые веса, что делает процесс более быстрым и эффективным.
В процессе обучения был введён специальный триггер-токен — bubblestyle, который использовался в текстовых запросах. Этот токен позволяет активировать обученный стиль и связывает текстовое описание с визуальными характеристиками bubble design.
Перед запуском обучения были заданы основные параметры и подготовлены директории для хранения датасета и результатов. Данные размещались в отдельной папке, что позволило корректно передать их в обучающий скрипт.
Обучение проводилось с использованием скрипта train_dreambooth_lora.py, который реализует подход DreamBooth с поддержкой LoRA. Были заданы ключевые параметры: разрешение 512×512, размер батча — 1, скорость обучения — 1e-4, количество шагов — 500, а также фиксированный seed для воспроизводимости.
Несмотря на относительно небольшое количество шагов, модель продемонстрировала стабильное обучение. В процессе наблюдалось снижение функции потерь, что свидетельствует о том, что модель успешно усвоила основные визуальные характеристики стиля — глянцевость, мягкие отражения и объём.
04 Результаты генераций
04 Комментарий результатов
В результате обучения была получена модель, способная воспроизводить визуальный стиль bubble design и адаптировать его к различным типам изображений — от абстрактных форм до более предметных и типографических решений.
Несмотря на относительно небольшой объём датасета и ограниченное количество шагов обучения, модель продемонстрировала устойчивость стиля, хорошую вариативность и визуальную выразительность. Это говорит о том, что даже при ограниченных ресурсах возможно обучить модель, способную не просто воспроизводить отдельные изображения, а усваивать и применять визуальную логику материала.
В сгенерированных изображениях отчётливо прослеживаются ключевые характеристики bubble design: глянцевые поверхности, мягкие переходы света и тени, округлые формы и выраженные блики. При этом стиль сохраняется независимо от содержания изображения, что указывает на успешное отделение визуального языка от конкретных объектов датасета.
Можно наблюдать различия в акцентах генерации: в одних изображениях модель фокусируется на форме и силуэте объектов, создавая более графичные композиции, в других — на передаче материала, уделяя внимание отражениям, прозрачности и световым эффектам. Это демонстрирует гибкость модели и её способность по-разному интерпретировать один и тот же стиль.
Отдельно важно отметить вариативность результатов: при изменении текстовых запросов модель создаёт различные композиции, сохраняя при этом единые стилистические признаки. Это подтверждает, что стиль был усвоен как система визуальных характеристик, а не как набор зафиксированных образов.
Среди ограничений можно выделить тенденцию к упрощению сложной геометрии: при генерации более детализированных или нестандартных форм модель иногда сглаживает структуру объектов. Тем не менее, даже в этих случаях сохраняются ключевые признаки материала — глянец, мягкость и характер освещения.
Таким образом, результаты демонстрируют, что модель успешно усвоила не только форму, но и материальность объектов, что было основной задачей проекта.
05 Описание применения генеративной модели
В проекте использовалась генеративная модель Stable Diffusion v1.5, дообученная с применением подхода DreamBooth и технологии LoRA (Low-Rank Adaptation).
На основе подготовленного датасета была обучена LoRA-модель, позволяющая воспроизводить характерные особенности визуального стиля bubble design и переносить их на новые объекты и сцены.
Обучение и генерация изображений осуществлялись с использованием библиотеки diffusers от Hugging Face, а также инструментов transformers, accelerate, bitsandbytes и xformers, обеспечивающих эффективную работу с диффузионными моделями и оптимизацию вычислений.
В качестве среды разработки использовалась платформа Google Colab, что позволило выполнять обучение модели и генерацию изображений без необходимости локальной настройки вычислительных ресурсов.
Для активации обученного стиля в процессе генерации применялся специальный триггер-токен «bubblestyle», связывающий текстовое описание с визуальными характеристиками, усвоенными моделью.
Дополнительно генеративный искусственный интеллект использовался на этапе разработки проекта для: — подбора и уточнения текстовых промптов — анализа визуальных результатов — формулирования текстового описания проекта
Используемая модель: Stable Diffusion v1.5 https://github.com/huggingface/diffusers




