Original size 1024x1434

Анализ текстов поп-песен через визуализацию данных

PROTECT STATUS: not protected

Концепция

Я люблю слушать музыку, и мне сложно представить свою жизнь без неё. Обычно я либо слушаю все песни из своего плейлиста в произвольном порядке, либо заслушиваю одну и ту же песню до дыр месяцами, поэтому мне всегда интересно посмотреть на свои «топ-10» и на статистику, которую стриминговые сервисы публикуют в конце года. Именно любовь к музыке и изучению статистики, связанной с ней, побудила меня взять в качестве материала для исследования данные по песням. Для анализа текстов песен я выбрала жанр «поп», ведь многие относятся к нему как к лёгкой и несерьёзной музыке, не заслуживающей внимания, хотя в этом жанре можно заметить интересные закономерности, выявлению которых и посвящён мой проект.

Поп-музыка — это не только развлечение, но и зеркало общества, которое отражает эмоции и переживания.

В рамках этого проекта я решила провести анализ текстов поп-песен, используя различные методы визуализации данных, чтобы выявить закономерности.

Для анализа я выбрала датасет, взятый с платформы Hugging Face и содержащий более 1000 песен различных исполнителей, и изучила, какие темы наиболее часто встречаются в текстах, а также провести анализ на основе таких характеристик, как длина текстов и эмоциональная окраска песен. Все данные были обработаны с использованием Python, для визуализации использовались такие библиотеки, как Matplotlib, Seaborn и WordCloud.

Подготовка

Перед началом работы я решила выбрать цветовую палитру для дальнейшего использования в графиках. Для этого я нашла статью с 20 лучшими поп-альбомами XXI века и взяла оттуда обложки альбомов.

big
Original size 2628x1582

20 лучших поп-альбомов XXI века

Из обложек я сделала коллаж и загрузила его в Adobe Color, чтобы получить цветовую палитру.

Original size 2628x934

Найдя подходящий датасет, я начала писать код. Первым делом я очистила данные, удалив ненужные символы, такие как квадратные скобки и заголовки песен, а также перевела тексты в нижний регистр для упрощения дальнейшего анализа.

Original size 2628x1671

После этого я выбрала пять параметров, на основе которых можно провести анализ, и выбрала, какие типы диаграмм буду использовать для каждого из них.

• Круговая диаграмма была выбрана для анализа распределения тональности песен, так как она эффективно демонстрирует пропорции.

• Иерархическая карта — для визуализации частоты ключевых слов в разных темах, так как этот тип диаграммы хорошо показывает соотношение в пропорции.

• Облако слов было выбрано за простоту восприятия и эффектность.

• Точечная диаграмма использовалась для анализа длины песен, так как она позволяет чётко увидеть распределение по диапазону.

• Столбчатая диаграмма была использована для анализа артистов с самыми длинными песнями, так как она легко воспринимается при сравнении нескольких категорий.

Анализ данных

Тональность песен

Первым делом я решила выяснить, какую эмоциональную окраску имеют тексты поп-песен. Это дало представление о том, насколько оптимистичными или пессимистичными являются популярные песни.

0

Большая часть песен имеет положительную тональность (72,5%), что подтверждает общее восприятие поп-музыки как легкой, позитивной и развлекательной. Нейтральные и отрицательные песни занимают меньшую долю, что может свидетельствовать о том, что такие песни более редки в поп-жанре.

Популярные темы и ключевые слова

Разобравшись с тональностью, я решила выявить, какие темы и слова чаще всего встречаются в текстах поп-песен. Это может рассказать о том, что наиболее актуально и интересно слушателям в поп-культуре.

0

Наибольшее количество упоминаний в песнях связано с темой любви («love»), что подтверждает, что эта тема — основная в поп-музыке. Также популярными являются слова, связанные с эмоциями, ласковыми обращениями («heart», «baby», «cry») и временем («time», «day»), что подчеркивает фокус на личных переживаниях и отношениях. Интересно, что слова, такие как «money» и «party», тоже встречаются часто, что может указывать на тренды, связанные с богатством и развлекательной культурой.

Наиболее часто встречающиеся слова

Для лучшего понимания тенденций поп-музыки я продолжила анализ лексики. Облако слов дает визуальное представление о том, какие слова наиболее часто встречаются в текстах песен, что помогает быстро увидеть ключевые темы и слова.

0

Из облака слов видно, что слова «love» и «know» преобладают, что подтверждает вывод из предыдущего графика о фокусе на любви и отношениях. Также стоит отметить наличие таких слов, как «wanna» и «baby», что характерно для разговорной, более эмоциональной и личной лексики.

Длина текстов песен

Этот график позволяет проанализировать, насколько разнообразны тексты песен по длине, и увидеть, есть ли в поп-музыке тенденция к более коротким или более длинным песням.

0

Диаграмма отражает большое количество песен с короткими текстами (до 500 слов), однако на ней также есть песни, содержащие до 3000-3500 слов. Это говорит о том, что музыка может быть как очень лаконичной, так и достаточно объемной, в зависимости от стиля и задуманного исполнителем эффекта.

Артисты с самыми длинными текстами

Узнав тенденции в длине текстов, я решила выявить артистов с самыми длинными текстами песен. Полученная статистика может говорить об оригинальном творческом подходе и желании передать более глубокие и сложные сообщения.

0

Из графика видно, что такие артисты, как Snoop Dogg, Kendrick Lamar и Pharrell Williams, имеют самые длинные тексты песен, что свидетельствует об использовании лирики как метода для выражения сложных идей и историй.

Заключение

С помощью графиков, представленных в проекте, можно сделать несколько интересных выводов.

Во-первых, можно заметить, что в поп-песнях преобладают нейтральные и позитивные настроения, с небольшим количеством негативных песен. Во-вторых, анализ длины песен показал, что большинство из них имеют среднюю длину, однако есть несколько артистов, чьи тексты значительно длиннее остальных.

В целом, исследование доказывает, что поп-музыка — это жанр, который ориентирован на массовую аудиторию и в то же время достаточно разнообразен по тематике.

Описание применения генеративной модели

Работая над анализом данных и составлением диаграмм, я несколько раз обращалась к нейросети Chat GPT за советами по улучшению кода и за помощью с идеями оформления графиков, а также к нейросети Recraft.ai для генерации изображения для обложки проекта.

Все промпты, использованные в проекте, собраны в документе.

Источники

Ссылка на датасет smgriffin/modern-pop-lyrics

Ссылка на изображения для коллажа The 20 best pop albums of the 21st century

Генерация цветовой палитры на основе загруженного изображения Adobe Color

Генерация рекомендаций по улучшению кода и инструкций Chat GPT version 4.0

Генерация обложки проекта Recraft.ai

Анализ текстов поп-песен через визуализацию данных
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more