Кем угодно на BRND

Концепция

Каждый человек в детстве думал, кем он станет, фантазировал на эту тему, примерял на себя разные образы. В проекте я решила воплотить эти детские представления с помощью нейросети: взять свои детские фотографии и показать, какими мы могли бы быть в своих мечтах.

Мне интересно, как технология может соединить детское воображение и взрослое восприятие — вернуть то чувство игры, где можно быть любым.

Подготовка окружения

Для начала проверяем подключение к GPU, устанавливаем нужные библиотеки, обновляем diffusers до актуальной версии и скачиваем скрипт обучения DreamBooth SDXL. Это шаг, который создаёт техническую основу для всего проекта.

Подготовка датасета

Теперь подготавливаем датасет из 21 детской фотографии: размер фотографий небольшой 512×512 для оптимизации процесса. На этом этапе задаётся папка «cher», куда будут загружаться фотографии, на которых нейросеть обучится распознавать образ.

Также выводим 5 случайных снимков, чтобы убедиться, что всё установилось как нужно.

Исходный размер 1920x384

Подготовка окружения к обучению

Далее с помощью BLIP к каждой фотографии из датасета генерируем подписи, к которым добавляем префикс (a photo of TOK girl), который в дальнейшем используем для генерации изображений. Обязательно освобождаем немного памяти, чтобы не нагружать среду.

Теперь устанавливаем необходимые библиотеки и авторизуемся на Hugging Face. Это обезопасит в случае слёта кода в Google Colab, так как можно будет продолжить генерировать изображения на сайте (туда перенесётся обученная модель).

Исходный размер 1920x385

Обучение модели

Теперь переходим к обучению самой модели. В параметрах задаем 500 и 250 шагов, для ускорения процесса обучения и меньшей задействованности GPU. Также обязательно передаем префикс к промтам, который присутствовал в обучающей выборке. Сохраняем модель на Hugging Face и получаем ссылку на страницу.

Исходный размер 1920x607

Исходный размер 1920x236

Исходный размер 1920x662

Исходный размер 1920x282

Генерация изображений

Изначально я начала генерировать изображения в Goggle Colab c помощью простых промптов. Результат выходил плохим: кривая анатомия, пугающие изображения. Было принято решение увеличить количество шагов до 1000, однако системе не хватило мощности GPU и генерации в Colab перестали работать. Хорошо, что мы перенесли обученную модель на Hugging Face.

Было принято решение продолжить генерировать изображения там, но с использованием нейросети Midjourney для написания подробных промтов. Результат получился намного лучше.

a photo of TOK girl, realistic portrait of a child as a princess, preserving original facial features and proportions, natural expression, correct anatomy, soft lighting, detailed realistic textures, high-quality photography, cinematic look, subtle background, gentle color grading, 8k detailed, depth of field

Исходный размер 1024x1024

a photo of TOK girl, realistic portrait of a child as an astronaut, wearing a detailed space suit, stars reflecting in the helmet glass, preserving original facial features, natural expression, cinematic lighting, 8k detailed, depth of field, gentle cosmic glow

Исходный размер 1024x1024

a photo of TOK girl, realistic portrait of a child as a forest fairy, glowing wings, soft light through leaves, natural facial features, serene expression, dreamy atmosphere, cinematic photography, detailed textures, bokeh background

Исходный размер 1024x1024

a photo of TOK girl, realistic portrait of a child as a singer on stage, holding a vintage microphone, soft spotlight on face, natural smile and expressive eyes, detailed realistic textures, cinematic lighting, bokeh background, warm stage colors, lifelike skin and proportions, 8k photography

Исходный размер 1024x1024

a photo of TOK girl, realistic portrait of a child as a little traveler, wearing a light jacket and backpack, soft natural light, gentle expression, detailed face, keeping original features, clean background, realistic proportions

Исходный размер 1024x1024

a photo of TOK girl, realistic portrait of a child as a young artist, holding a brush and palette, warm soft lighting, natural face and expression, preserving original features, gentle background, cinematic lighting, realistic proportions

Исходный размер 1024x1024

a photo of TOK girl, a realistic portrait of a child as a little witch, wearing a dark cloak and a small pointed hat, holding a candle, warm soft lighting on the face, preserving original facial features and proportions, gentle expression, natural anatomy, subtle magical atmosphere, soft background, realistic textures

Исходный размер 1024x1024

Интересно, что можно варьировать схожесть фотографий с оригиналом. Всё дело в плотности промпта, то есть в том, насколько подробно он составлен и на чём сфокусирован. В первом случае мы акцентировали внимание больше на портрет и схожесть, во втором — на образ и атмосферу. При этом, какие-то схожие черты продолжают прослеживаться.

a photo of TOK girl, a realistic portrait of a child as a young scientist, with soft hints of blueprints and tools in the background, warm gentle lighting, thoughtful expression, preserving original facial features and proportions, natural anatomy, realistic materials and soft textures

a photo of a TOK girl, realistic portrait of a child as a young scientist in a workshop, surrounded by blueprints, light bulbs and tools, realistic proportions, detailed face, keeping original features, thoughtful expression, warm lighting, cinematic composition, realistic materials and skin tones

a photo of TOK girl, a realistic portrait of a child as a dragon girl, with tiny dragon horns and faint shimmer on the cheeks, warm soft lighting, calm natural expression, preserving original facial features and proportions, realistic eyes, natural anatomy, subtle fantasy atmosphere, gentle background blur

a photo of a TOK girl, realistic portrait of a child as a dragon girl, with small delicate dragon horns and iridescent scales on the cheeks, keeping realistic human face and body proportions, keeping original features, cinematic fantasy lighting, detailed textures, soft background with mist and light beams

a photo of TOK girl, a realistic portrait of a child as a young jungle explorer, wearing a light khaki outfit, soft warm sunlight, gentle natural lighting, calm expression, preserving original facial features and proportions, natural anatomy, realistic skin texture, subtle background with soft depth of field

a photo of TOK girl, realistic portrait of a child as a jungle explorer, khaki outfit, sunlight through leaves, realistic facial proportions, gentle expression, detailed face, keeping original features, natural light, dusty trail background, detailed skin texture, cinematic lighting, realistic proportions, 8k photography

a photo of a TOK girl, realistic portrait of a child as a cyberpunk heroine, glowing neon lights, futuristic outfit, soft expression, realistic proportions, detailed face, keeping original features, cinematic depth of field, cool color palette, reflective surfaces

Исходный размер 1024x1024

a photo of TOK girl, realistic portrait of a child as an ocean spirit, shimmering water textures, seashell accessories, natural face, calm expression, cinematic underwater lighting, high realism

Исходный размер 1024x1024

Результат получился довольно-таки неплохим. Можно до обучить модель, увеличив количество шагов до 1000 и расширив датасет, тогда сходство будет ещё выраженнее. Особенно актуально обучение подобной модели будет родителям, чьи дети хотят увидеть себя в разных образах, и фотографам в детских садах.

Ссылка на код