Исходный размер 1140x1600

TUNNEL

Проект принимает участие в конкурсе

Концепция

Проект направлен на создание модели нейросети, способной генерировать уникальные, атмосферные изображения туннелей, которые развивают визуальный нарратив в сторону иллюстративного прочтения. Вдохновленная концепцией «фантомной катастрофы», нейросеть будет создавать изображения, вызывающие чувство таинственности и эпического масштаба.

0

Примеры реальных изображений для обучения

Итоговые изображения

big
Исходный размер 1024x1024

«photorealistic shot of a dark, deep underground metro tunnel, curved train tracks leading into the distanсе»

Исходный размер 1024x1024

«massive arched concrete tunnel, intricate ribbed structure, long perspective down railroad tracks»

Исходный размер 1024x1024

«somebody alone in tunnel»

Исходный размер 1024x1024

«glowing artefact, figure»

Исходный размер 1024x1024

«bright light at the end of dark tunnel, dramatic glow, rays of light»

Исходный размер 1024x1024

«stalkers sitting right in tunnel»

Исходный размер 1024x1024

«trainway in tunnel»

Техническое описание

Процесс обучения// Архитектура и параметры:

• Базовая модель: Stable Diffusion XL 1.0 • Метод адаптации: Dreambooth с LoRA • Размер датасета: 14 изображений • Количество шагов: 25 • Разрешение: 1024×1024 пикселей

Использованные модели ИИ:

Stable Diffusion XL 1.0 Ссылка: https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 //Цель: Базовая архитектура для генерации изображений

BLIP (Bootstrapping Language-Image Pre-training) — Ссылка: https://huggingface.co/Salesforce/blip-image-captioning-base //Цель: Автоматическая аннотация обучающих изображений

Dreambooth + LoRA //Цель: Персонализация базовой модели под заданный стиль

Обучение:

Обучение проводилось на датасете реальных фотографий, содержащем ограниченное количество изображений в единой визуальной обработке. Для улучшения качества результатов использовались gradient checkpointing и 8-битная оптимизация.

Анализ корреляции концепций:

Проект демонстрирует симбиоз реальной съемки и нейросетевого прочтения концепции.

Модели удалось усвоить ключевые принципы воспроизведения, переданы элементы стиля:

  1. Цветовая интеграция: Приглушенные и монохромные изображения в холодных тонах;

  2. Освещение: точечное контрастное освещение, естественный источник в качестве точки света, наделенный при этом резким визуальным весом;

  3. Структурная адаптация: ракурсы соответствуют точкам съемки, заданным изначальным датасетом.

Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше