Исходный размер 1140x1600

Обучение модели генерации портретов в стиле Эгона Шиле

Проект принимает участие в конкурсе

Темой проекта я выбрала обучение модели под художественный стиль Эгона Шиле. Основной целью было добиться того, чтобы генерации сохраняли характерные визуальные признаки стиля художника и при этом оставались целостными.

Датасет

Для обучения был собран небольшой датасет, состоящий из 22 изображений.

Такой объём выбран осознанно, так как для данной задачи было важно не количество данных, а их однородность.

big
Исходный размер 2560x1536

Примеры исходных изображений для обучения

Все изображения подбирались таким образом, чтобы они были максимально похожи друг на друга по визуальному языку. В них отчётливо прослеживаются ключевые особенности стиля, при этом отсутствуют сильные отклонения, связанные с разными периодами или техниками, чтобы модель могла лучше понять нужные закономерности.

Обучение модели

big
Исходный размер 1840x270

Подключение LoRA к базовой модели

Обучение проводилось с использованием подхода DreamBooth в сочетании с LoRA. Основная модель не переобучаласть полностью, а создавалась дополнительная надстройка, которая отвечала за запоминание нового визуального стиля.

Такой подход оказался удобным, поскольку он требует меньше вычислительных ресурсов, быстрее обучается и позволяет сохранять промежуточные результаты для последующего сравнения.

Параметры обучения

Исходный размер 3210x670

В процессе обучения использовались стандартные параметры, которые затем частично корректировались

Размер изображений составлял 512 пикселей, learning rate был установлен на уровне примерно 1e-4, batch size равнялся 1, а gradient accumulation — 4. Общее количество шагов обучения доходило примерно до 1200.

В ходе работы параметры не оставались полностью фиксированными. В частности, изменялось количество шагов, чтобы понять, на каком этапе модель показывает наилучший результат.

Промежуточные результаты

Во время обучения сохранялись промежуточные версии модели на разных этапах.

Исходный размер 1575x409

Генерации на разных чекпоинтах

Анализ этих чекпоинтов показал, что качество генераций меняется неравномерно. На ранних этапах изображения выглядят недостаточно сформированными, однако в данном случае наиболее удачные результаты были получены уже на этапе около 300 шагов. На средних этапах стиль проявляется наиболее чётко. При дальнейшем обучении в некоторых случаях наблюдается переобучение, из-за чего изображения становятся менее выразительными.

Поэтому итоговая версия модели выбиралась не автоматически по последнему чекпоинту, а на основе визуального анализа результатов.

Генерация изображений

После завершения обучения модель тестировалась с помощью различных промптов.

0

Основной задачей было проверить, насколько стабильно модель воспроизводит стиль в разных условиях. Для этого использовались разные сцены, позы и композиции.

В процессе генерации также варьировались параметры, включая формулировки промптов и негативные промпты. Это позволяло лучше понять границы применимости обученной модели.

Наблюдения

В ходе работы были выявлены несколько закономерностей.

post

prompt = oil painting, egon schiele style, portrait of a thin middle-aged man, sharp facial features, narrow face, pronounced cheekbones, slightly turned head, looking down, tense expression, tired eyes, elongated neck, rigid posture, dry rough brush strokes, scratchy contour lines, visible uneven paint texture, raw unfinished surface, pale skin with dirty green, yellow and red tones, harsh lighting, muted brown background

ранний этап обучения (checkpoint-300)

При недостаточном обучении модель склонна давать размытые и слабо стилизованные изображения. Слишком длительное обучение, наоборот, может приводить к ухудшению качества и потере выразительности.

post

prompt = oil painting, egon schiele style, portrait of a young man, sitting stiffly, head slightly tilted, looking directly at viewer, clear but tense facial structure, slightly hollow cheeks, thin lips, subtle asymmetry in eyes and mouth, elongated neck, narrow shoulders, emotion: quiet tension, psychological discomfort, pale skin with greenish and reddish tones, rough contour lines, visible brush strokes, muted brown background, unfinished painterly feel

поздний этап обучения (checkpoint-1200)

Наиболее удачные результаты были получены на раннем этапе обучения, тогда как при дальнейшем обучении качество снижалось. При этом итоговое качество изображений также зависело от формулировки промптов и параметров генерации.

Анализ итоговых изображений

post

prompt = oil painting, egon schiele style, portrait of a thin young woman, front-facing but slightly tilted head, elongated narrow face, sharp jawline, hollow cheeks, tense expression, distant взгляд, fragile posture, thin uneven contour lines, нервный рисунок, dry broken brush strokes, rough texture, visible sketch lines, unfinished areas, pale skin with greenish and grey tones, harsh shadows, minimal background, austrian expressionism

Итоговая серия показывает, что модель стабильно воспроизводит ключевые признаки стиля: неровную линию, искажение форм и общее ощущение напряжённости. Стиль проявляется не только на уровне цвета, но и в построении изображения.

post

prompt = close-up portrait of a person, face centered, head and shoulders only, looking at viewer, visible eyes, visible nose, visible mouth, egon schiele style, elongated thin neck, expressive face, pale skin with green and red tones, rough contour lines, muted earthy colors, painterly texture

При этом результаты отличаются по степени выразительности: в части генераций стиль читается явно, в других — выглядит более сглаженным. Это связано с выбором чекпоинта и формулировкой промптов.

post

prompt = «»» oil painting, egon schiele style, portrait of a fragile teenage boy, front-facing, slightly поднятые плечи, elongated thin face, narrow jaw, large eyes, awkward expression, tense posture, uneven contour lines, sketch-like drawing, dry brush strokes, rough texture, pale skin with grey-green tones and slight red accents, subtle asymmetry, unfinished areas, flat muted background, austrian expressionism «»»

post

prompt = oil painting, egon schiele style, portrait of a young woman with tense expression, slightly tilted head, direct gaze, elongated narrow face, sharp jaw, hollow cheeks, uneven thin contour lines, nervous linework, dry rough brush strokes, visible sketch underneath, subtle asymmetry in eyes and lips, pale skin with green, grey and muted red tones, patchy blush, harsh shadows, unfinished painting, austrian expressionism

Итог

В результате удалось получить модель, которая способна генерировать изображения с узнаваемыми чертами выбранного стиля.

Качество итоговых изображений в значительной степени зависит от трёх факторов: — состава датасета — выбранного чекпоинта — формулировки промпта

Обучение можно считать успешным, поскольку модель демонстрирует устойчивую передачу ключевых визуальных характеристик стиля, несмотря на ограниченный датасет.

В работе использовалась текстовая модель ChatGPT (OpenAI) для помощи в написании промптов и настройкой окружения.

Обучение модели генерации портретов в стиле Эгона Шиле
Проект создан 23.03.2026
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше