Original size 2280x3200

Исследование контента и успешности на платформе Netflix

PROTECT STATUS: not protected
The project is taking part in the competition

Вводная часть:

Для своего проекта я решила выбрать тематику известную всем, ставшую максимально актуальной и увеличившую популярность- стриминговый сервис, а именно её один из самых известных представителей Netflix. С прошедшей в прошлом пандемии данный тип сервисов стал очень популярен и сейчас имеет огромное влияние в жизни большинства людей. На современных стриминговых сервисах со временем сильно расширяется ассортимент разного плана картин: кино, сериалы, мультипликация, аниме и т. д. Каждый человек может найти себе что-то под вкус и настроение на каждый день.

Визуализация

Для визуализации работы были выбраны цвета логотипов 2-х фигурирующих ресурсов- это IMDB и Netflix.

Выбор данных

Исследование в работе было начато с выбора датасета на рекомендованном ресурсе kaggle.com.

Цель исследования

Целью моей работы является сравнительный анализ как качества картин, так и анализ успешности картины по ее разным признакам и факторам. Причиной этому стало то, что данный сервис является одним из самых популярных в своей сфере.

Обработка данных:

post

Датасет содержит в себе метаданные о продуктах платформы Netflix с их оценками портала IMDB. После загрузки датасета в нашу среду: Сollab была произведена очистка данных. Был отфильтрован контент с менее чем 100 голосами на IMDB, были удалены строки с пропуском в ключевых колонках, преобразовали год в целое число для группировок и графиков. Добавление полезных признаков: Логарифм голосов — нормализует сильно скошенные данные (голоса варьируются от сотен до миллионов), делая корреляции и визуализации более интерпретируемыми. Функция categorize_runtime: Создаёт категорию продолжительности (runtime_category) на основе типа контента.

Статистические методы в работе:

1 Описательная статистика- базовый метод для суммирования данных: расчёт мер центральной тенденции (среднее, медиана), разброса (стандартное отклонение, дисперсия), экстремумов (мин/макс) и распределений (квантили). 2 Корреляция Пирсона — мера линейной зависимости между двумя числовыми переменными (от -1 до 1: положительная/отрицательная корреляция, 0 — отсутствие). 3 Линейная регрессия — модель для предсказания зависимости одной переменной от другой. 4 Групповые статистики и агрегация — разделение данных на группы и расчёт статистик (средние, подсчёты) для сравнения. 5 Нормализация и трансформация данных — преобразование данных для улучшения распределения 6 Биннинг — разделение непрерывной переменной на категории (бины) для упрощения анализа.

post

1 Jointplot: Выбран для изучения совместного распределения популярности и рейтинга, с разделением по типу (фильмы/сериалы). Причиной выбора стало то, что комбинирует scatter (корреляцию) и гистограммы (распределения), показывая, как успех коррелирует с вовлечённостью аудитории.

Original size 738x616
post

2 Точечная диаграмма Scatterplot с регрессией Выбрана для анализа корреляции продолжительности и рейтинга. Scatter показывает индивидуальные точки (разброс), а регрессия — тренд.

Original size 996x547
post

3 Круговая диаграмма: Pie chart идеален для пропорций и долей в категориальных данных, когда нужно показать, как распределяется общее целое. Возрастная сертификация отражает таргетинг аудитории — ключевой фактор коммерческого успеха.

Original size 1104x606
post

4 Линейный график: Линейный график — стандарт для временных рядов и трендов.

Original size 988x547
post

5 Heatmap: Heatmap — лучший способ визуализировать матрицу корреляций (много переменных одновременно). Цвет и аннотации дают мгновенное понимание силы/направления связей. Суммирует взаимосвязи факторов, завершает анализ, давая обзор всех зависимостей.

Original size 765x682

Итоги:

Анализ датасета был сосредоточен на факторах успеха контента, где основным индикатором качества выступал IMDB-рейтинг (средняя оценка зрителей), а популярности — количество голосов. Дополнительно учитывались продолжительность, год выпуска и возрастные сертификации как косвенные метрики вовлечённости и охвата аудитории. Распределение IMDB-рейтингов близко к нормальному со средним около 6.3–6.5. Высокие оценки (8+) встречаются реже, особенно среди недавнего контента. Это указывает на стратегию платформы: массовое производство «средне-хорошего» контента для широкой аудитории, а не фокус на шедеврах. Слабая связь между популярностью и качеством. Линейная регрессия показала слабый отрицательный тренд — чем длиннее фильм или эпизод, тем ниже средняя оценка.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more