Убийство в поместье МакЛафлин/Проект по анализу данных на BRND

Идея проекта

Меня интересовало, можно ли передать нейросети не конкретный сюжет, а целую систему визуальных признаков. Мои исходные иллюстрации были связаны с кинематографическим миром Уэса Андерсона, но при этом уже являлись самостоятельной авторской переработкой: я переводила атмосферу фильма в графику, работала с упрощенной формой, условной перспективой, декоративной композицией и ограниченной палитрой. В этом проекте мне было важно посмотреть, сможет ли модель продолжить этот мир и создать новые изображения, которые будут восприниматься как часть той же визуальной системы.

Исходные изображения

Для обучения был использован датасет из 16 моих собственных квадратных иллюстраций. Все изображения выполнены в единой манере: тонкий черный контур, плоские цветовые заливки, упрощенная анатомия, декоративные детали, фронтальные или слегка театральные композиции. Основой для этих работ стали титры одного из фильмов Уэса Андерсона, но итоговые изображения были не копиями кадров, а самостоятельными рисунками, в которых киноязык был переосмыслен через иллюстрацию.

Процесс обучения

Для обучения использовался Google Colab и пайплайн DreamBooth LoRA на базе Stable Diffusion XL. Сначала был подготовлен локальный датасет из 16 авторских квадратных изображений, после чего он был загружен в Colab и организован в отдельную директорию для обучения. Далее в среде были установлены библиотеки diffusers, transformers, accelerate, peft, bitsandbytes и другие зависимости, а также загружен тренировочный скрипт train_dreambooth_lora_sdxl.py из репозитория Hugging Face diffusers.

В качестве базовой модели использовалась stabilityai/stable-diffusion-xl-base-1.0, а в качестве VAE — madebyollin/sdxl-vae-fp16-fix. Обучение запускалось через accelerate launch с параметрами resolution=1024, train_batch_size=1, gradient_accumulation_steps=3, learning_rate=1e-4, max_train_steps=500, mixed_precision=fp16 и use_8bit_adam. В качестве instance_prompt использовалась формулировка an illustration in ULAART style, а результат обучения сохранялся в виде отдельных весов LoRA в папке ulaart_style_lora.

После завершения обучения полученные LoRA-веса были подключены к базовой SDXL-модели через DiffusionPipeline. На этапе генерации использовались текстовые prompts, описывающие новые сцены в нужной эстетике, а также negative prompt для снижения фотореалистичности и артефактов. В результате была получена серия новых изображений, продолжающих визуальный язык исходного датасета.

Итоговая серия

Итоговая серия состоит из генераций, которые продолжают эстетику исходных работ, но при этом не повторяют их напрямую. В серии появляются семейные и групповые портреты, интерьерные сцены, вымышленная карта, городской пейзаж, прогулки, дорога, мост, жилое пространство и архитектурные фрагменты. Вместе эти изображения складываются в единый мир, где частная повседневность, условность пространства и декоративная композиция становятся главными средствами повествования.

Исходный размер 1146x160

Лучше всего модель усвоила общий характер графики: контурную линию, плоскостность изображения, условную анатомию, декоративную организацию пространства и мягкую приглушенную палитру. Особенно хорошо считываются интерьерные сцены и городские виды, где заметно стремление модели к симметрии, фронтальности и композиционной собранности. В некоторых изображениях она уверенно воспроизводит атмосферу камерного театрального мира, близкого к логике моих исходных работ.

Одновременно генерации показывают и ограничения обучения. В ряде изображений заметны анатомические упрощения, нестабильность в деталях лиц и рук, а также случайные деформации архитектуры или предметов. Однако эти сбои не разрушают серию, а, наоборот, помогают увидеть, какие элементы стиля оказались для модели самыми устойчивыми. Нейросеть лучше воспроизводит общий визуальный принцип, чем конкретную точность формы, и именно это делает результат интересным: серия воспринимается не как копия исходников, а как машинная интерпретация моего иллюстративного мира.

Ссылка на датасет и блокнот