В проекте исследуется, как генеративная модель Stable Diffusion может усвоить визуальные особенности автомобилей Porsche и создавать новые концепты суперкаров в различных художественных жанрах и окружениях.
Для обучения был собран датасет из изображений автомобилей Porsche. Количество изображений: 32.
Серия итоговых изображений
«sks porsche car cyberpunk city, neon lights»
«futuristic porsche car futuristic city, day lights»
«futuristic porsche car futuristic city, day lights»
«sks porsche car on a racetrack, cinematic lighting»
«sks porsche car studio photography, ultra realistic»
«sks porsche car studio photography, ultra realistic»
«sks porsche car of the future, ultra realistic, in realistic city of the future»
«porsche car parked in a cyberpunk city at night, ultra realistic»
«sks porsche concept car, retro synthwave style, ultra realistic»
Как видно на первых изображениях, модель пока слабо справлялась с генерацией окружения, однако уже достаточно хорошо воспроизводила сам автомобиль. После нескольких попыток и экспериментов я заметил, что качество генераций значительно улучшается, если добавить в промпт словосочетание ultra realistic. Кроме того, поэкспериментировав с различными настройками, мне удалось подобрать параметры, при которых результат генерации стал наиболее оптимальным.
Техническая реализация проекта
Для обучения модели я использовал подход DreamBooth с LoRA на базе Stable Diffusion XL. В качестве исходной модели была выбрана sdxl-base-1.0, дополнительно подключён улучшенный VAE для более стабильной генерации изображений.
Обучение проводилось на собственном датасете, при этом в качестве ключевого описания (instance_prompt) использовался фиксированный текст, задающий основной объект и стиль изображений. Это позволило модели лучше усвоить характерные визуальные признаки.
В процессе обучения я использовал разрешение 512×512 и небольшой batch size, чтобы сбалансировать качество и доступные вычислительные ресурсы. Для оптимизации памяти были включены gradient checkpointing и 8-bit Adam optimizer, а также применялась смешанная точность (fp16).
Скорость обучения задавалась через learning rate 1e-4, а общее количество шагов было ограничено 500, чтобы избежать переобучения модели. Дополнительно использовался параметр snr_gamma, который улучшает качество генерации и детализацию.
В результате такие настройки позволили добиться стабильного обучения модели и получить качественные изображения, соответствующие заданному стилю.
Использованные генеративные модели
Использованные нейросети: 1.Stable Diffusion XL — генерация изображений 2.Dreambooth + LoRA — дообучение модели 3.BLIP — генерация подписей к изображениям




