Исходный размер 928x1312

Анализ данных о трендах в женской моде и их визуализация

Введение

Для выполнения задания был выбран Women Fashion Trend Dataset с платформы Kaggle https://www.kaggle.com/datasets/durgeshrao9993/dataset, который содержит информацию о трендах в женской моде.

Этот датасет включает данные о различных элементах моды: одежда, аксессуары, обувь и косметика. Данные представлены в табличной форме и включают такие параметры как цена, количество продаж, рейтинг и другие характеристики товаров.

Поскольку датасет содержит довольно большое количество информации и он состоит из 43 столбцов, для анализа были отобраны наиболее интересные мне поля.

price — цена товара units_sold — количество проданных единиц товара rating — рейтинг товара

Этапы работы

  1. Распределение цен на товары
  2. Распределение рейтингов
  3. Корреляционный анализ
  4. Взаимосвязь между ценой и количеством продаж
  5. Анализ выбросов с помощью боксплотов
  6. Корреляционные облака
Исходный размер 1757x645

Установим стиль и цветовую палитру

Исходный размер 1484x245

Создание новой колонки для категории

Исходный размер 1769x102

Функция для настройки графиков

Исходный размер 1770x415

Распределение цен на товары

Исходный размер 1920x220
Исходный размер 1175x700

Этот график показывает, что большинство товаров имеют цены ниже 10 евро с пиком в диапазоне от 2 до 5 евро.

Распределение рейтингов

Исходный размер 1840x227
Исходный размер 1182x702

Большинство товаров имеют рейтинги от 3 до 4, что указывает на среднее качество товаров.

Корреляционный анализ

Исходный размер 1598x142

Корелляционная матрица

Исходный размер 1412x152
Исходный размер 1357x537

Корреляционная матрица показывает слабую взаимосвязь между ценой, количеством продаж и рейтингом.

Визуализация корреляционнонной матрицы

Исходный размер 1880x254
Исходный размер 775x695

Вычислить корреляции и p-values

Исходный размер 1825x429

Вывести результаты корреляционного анализа

Исходный размер 1877x155

Корреляции и p-values для каждой пары переменных: Корреляция между price и units_sold: -0.0248, p-value: 0.3253 Корреляция между price и rating: 0.0535, p-value: 0.0340 Корреляция между units_sold и price: -0.0248, p-value: 0.3253 Корреляция между units_sold и rating: 0.0395, p-value: 0.1176 Корреляция между rating и price: 0.0535, p-value: 0.0340 Корреляция между rating и units_sold: 0.0395, p-value: 0.1176

Эти результаты показывают, что наблюдаемые корреляции не являются статистически значимыми.

Значит, нет сильной взаимосвязи между этими переменными в наших данных, за исключением слабой взаимосвязи между ценой и рейтингом, где p-value указывает на возможную статистическую значимость.

Взаимосвязь между ценой и количеством продаж

Исходный размер 1920x152
Исходный размер 1199x702

Диаграмма рассеяния показывает, что товары с низкой ценой имеют высокий объем продаж, а товары с высокой ценой продаются в меньшем количестве.

Боксплот для анализа выбросов (цены)

Исходный размер 1795x312
Исходный размер 1112x702

Видно, что большинство цен находятся в диапазоне до 10 евро, с несколькими выбросами.

Боксплот для анализа выбросов (рейтинги)

Исходный размер 1829x304
Исходный размер 1124x692

Видно, что большинство рейтингов находятся в диапазоне от 3 до 4, с несколькими выбросами.

Заключение

Проведенный анализ показал, что большинство товаров имеют низкую цену и средний рейтинг от 3 до 4.

Корреляционный анализ показал слабую взаимосвязь между переменными, причем большинство из них не являются статистически значимыми.

Анализ выбросов с помощью боксплотов выявил наличие выбросов в ценах и рейтингах, что может указывать на отдельные аномальные значения.

Анализ данных о трендах в женской моде и их визуализация
Проект создан 25.09.2024
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше