Обучение генеративной нейросети на BRND

Идея проекта

Основной задачей данного проекта являлось дополнительное обучение генеративной модели с целью воспроизведения определенного художественного стиля. На начальном этапе было необходимо подобрать набор изображений, которые максимально точно передают особенности выбранного стиля, чтобы впоследствии он мог быть воспроизведён в создаваемых моделью изображениях. В качестве источника вдохновения я обратился к стилистике геометрического абстракционизма и поставил перед собой задачу разработать модель, способную воспроизводить характерные черты этого уникального художественного направления.

Исходный размер 5200x1491

Картины в геометрическом абстракционизме

Исходный размер 5200x1491

Картины в геометрическом абстракционизме

Важно отметить, что ключевая особенность данного художественного стиля заключается в использовании абстрактных форм, которые создаются посредством линий, фигур или других геометрических элементов. Они объединяются таким образом, что зритель испытывает эффект вращения, оптической иллюзии или даже лёгкого головокружения, что делает композиции по-настоящему уникальными и запоминающимися.

Исходный размер 5200x1700

Картины в геометрическом абстракционизме

Исходный размер 5200x1700

Картины в геометрическом абстракционизме

Также были отобраны произведения, характеризующиеся яркими и выразительными деталями, что позволило объединить указанные две идеи.

Серия итоговых картин обученной модели

Исходный размер 4000x1875

Изображения, сгенерированные обученной моделью

Исходный размер 1024x1024

Изображение, сгенерированное обученной моделью

На мой взгляд, нейросеть успешно передала эффект иллюзии благодаря использованию линий, взятых из референсных кадров. Это позволило модели освоить стиль геометрического абстракционизма и адаптировать его к указанным промптам.

Исходный размер 4000x1875

Изображения, сгенерированные обученной моделью

Исходный размер 4000x1875

Изображения, сгенерированные обученной моделью

В ходе экспериментов с генерацией было проведено исследование влияния степени смешивания, позволяющего акцентировать внимание на определённых линиях или объектах посредством их выделения яркими цветами. Данный подход применялся для создания контраста, направленного на подчёркивание ключевого элемента композиции.

Исходный размер 4000x1875

Изображения, сгенерированные обученной моделью

Исходный размер 1024x1024

Изображение, сгенерированное обученной моделью

В ходе работы было также увеличено количество шагов при создании генерируемых изображений, что положительно сказалось на уровне их детализации. На мой взгляд, многие элементы стали более плавными и приобрели затемнённые оттенки.

Исходный размер 4000x1875

Изображения, сгенерированные обученной моделью

Исходный размер 4000x1875

Изображения, сгенерированные обученной моделью

Для более детального изучения модели я создал изображения, максимально приближенные к исходным референсам. Это наглядно продемонстрировало сходство в стилях.

Исходный размер 4000x1875

Изображения, сгенерированные обученной моделью

Исходный размер 4000x1875

Изображения, сгенерированные обученной моделью

Исходный размер 1024x1024

Изображение, сгенерированное обученной моделью

Процесс обучения модели

В качестве платформы для реализации данного проекта был выбран Google Colab, поскольку он предоставляет возможность использования вычислительных ресурсов GPU, что значительно ускоряет процесс работы.

Перед началом основных этапов работы потребовалась установка всех необходимых библиотек и сбор исходных данных в виде набора изображений, которые будут использоваться для обучения модели.

В итоге были загружены соответствующие скрипты и подготовлен датасет изображений, предназначенный для последующего анализа.

Исходный размер 1024x1024

Скриншоты из GoogleCollab

После данного этапа настало время убедиться, что подгруженный датасет отображается в коде.

Исходный размер 1024x268

Скриншот из GoogleCollab

Благодаря этой функции все изображения приобрели единообразный вид, что значительно улучшило точность обучения модели для дальнейшей генерации.

Исходный размер 1024x666

Скриншоты из GoogleCollab

Следующим шагом стало создание префикса, с целью адаптации нейросети к конкретному стилю и облегчения её обучения на основе заданных определенных слов.

В данном случае, все запросы, содержащие префикс «photo collage in geometry style», будут направляться к обученной модели, что позволит генерировать изображения на основе загруженных референсов.

Исходный размер 1024x1024

Скриншоты из GoogleCollab

Наконец, можно было приступить к обучению модели, что заняло примерно час. По завершении этого этапа предстояло использовать полученный префикс для генерации новых изображений с применением обученного стиля.

Вывод

Исходный размер 4000x1875

Изображения, сгенерированные обученной моделью

В ходе работы выяснилось, что модель вполне возможно адаптировать под определенный стиль с использованием соответствующего кода. Анализируя сгенерированные картины, можно сказать, что обучение прошло успешно, и генерации действительно смогли подстроиться под заданную стилистику.

На мой взгляд, эта технология может значительно облегчить труд многих художников, а также помочь лучше понять принципы работы нейросетей.

Исходный размер 1024x1024

Изображение, сгенерированное обученной моделью

Файл с кодом