Исходный размер 1882x2657

Обучение нейросети Stable Diffusion в стиле японской фотографии PROVOKE

Концепция проекта

Идея проекта — обучить Stable Diffusion на «Provoke-вдохновлённой» эстетике (are-bure-boke: зернистость, размытость, высокие контрасты, жёсткие ч/б тени). Provoke «Журнал, который был символом контркультуры Японии 60-х» Возглавляемый таким культовым бунтарем как Дайдо Морияма, Provoke был журналом андеграундной фотографии, который подарил антиавторитарную альтернативу послевоенной Японии.

Для этого была собрана база из фотографий представителей этого жанра. Главная идея не копировать фотографии, а создать атмосферу присущую данному течению.

Taki Koji

Дата Сет

big
Исходный размер 2240x1324

Я собрала достаточно большую базу из 127 изображений. Выборка изображений была разнообразна, чтобы обученная модель могла воспроизводить более сложные сюжеты, при этом оставляя ядро стиля.

Применение генеративной модели

В проекте была использована генеративная модель Stable Diffusion XL для обучения её с помощью Dream Booth и LoRA для генерации изображений в стиле токийской уличной фотографии эры PROVOKE mag. BLIP для генерации промптов к исходникам. Hugging Face для того, дальнейшего обучения модели и её сохранения.

Генерации

Для проверки модели, я попробовала использовать разные пороки действия на промт обученного стиля.

Промт = «photo of young girl eating an watermelon while sitting on concrete photo»

0
Исходный размер 1024x1024

«giant buddha statue photo»

«Taxi door half-open; a calf steps down; rain needles explode in flash photo»

Исходный размер 1024x1024

«Face turned away; jawline clipped by frame; a tear looks like rain on glass photo "

Исходный размер 1024x1024

«Station platform number painted wrong by a drip; a shoe stops on it photo»

Исходный размер 1024x1024

«close up smiling man mouth photo»

«Two umbrellas colliding at a crosswalk»

«A coin drops into a vending machine, finger still on the button photo»

Исходный размер 1024x1024

«close up rose photo»

Исходный размер 1024x1024

«buddha statue on the background and man in suit standing in front photo»

Исходный размер 1024x1024

«teenage girl in swimsuit sitting on the sand beach coast photo»

Многие фото достаточно хорошо смогли передать атмосферу, на стиль которой, я обучила модель. Порой выходят такие результаты изображения, части из которых выбиваются, и смотрятся странно, тем не менее, большинство результатов соответствуют промту и различимы.

Вывод

У модели обученной под стиль японской уличной фотографии очень хорошо получается изобразить атмосферу, людей, некоторые стилистические решения. Однако, если задавать более сложные промпты или непопулярные для генерации объекты, у модели не очень хорошо выходит создавать сложное изображение.

Обучение нейросети Stable Diffusion в стиле японской фотографии PROVOKE
Проект создан 09.11.2025
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше