ВВЕДЕНИЕ
Данные для этого задания были взяты с сайта kaggle.com в разделе Datasets. Среди исследований с параметром Usability 10.0 мной было выбрано исследование под названием Student Depression Dataset (данные о студенческой депрессии), которое содержит следующие данные: • возраст; • пол; • город; • средний балл; • продолжительность сна; • профессия; • рабочее давление; • академическое давление.
Тема была выбрана в связи с интересом к области изучения расстройств депрессивного спектра, которые, как известно, особенно распространены среди представителей моего поколения.
Многие современные студенты, независимо от места проживания, сталкивались с данной проблемой лично или через близкое окружение, что делает изучение депрессии особенно актуальным.
Исходя из предоставленных данных я решила проследить взаимосвязь между депрессией и такими факторами, как продолжительность сна, пищевое поведение и академическое давление. Вышеперечисленные факторы актуальны для большинства студентов. Самым опасным проявлением депрессии является суицидальный риск, в связи с чем было интересно узнать, представители какого пола наиболее подвержены данному риску.
В работе мной были использованы следующие виды графиков: • горизонтальный и вертикальный барчарт — потому что он наилучшим образом демонстрирует соотношение разных величин между собой; • линейная диаграмма — лучше показывает зависимость одной переменной от другой; • пайчарт — потому что этот вид графика лучше показывает соотношение долей в исследованиях.
Изображение для обложки данной работы было сгенерировано с помощью нейросети Leonardo.AI
ЭТАПЫ РАБОТЫ
ПОДГОТОВКА СРЕДЫ К РАБОТЕ:
• импортирую библиотеку Pandas для работы с таблицами; • импортирую библиотеку Matplotlib для построения графиков; • загружаю данные в DataFrame из файла формата csv; • русифицирую название колонки Depression для отображения на графиках; • выборочно просматриваю записи в полученном фрейме, для понимания того, какие данные и в каком объёме у меня есть.

Просматриваю данные в первой строке для наглядного отображения структуры и содержания записей.
ОБЩИЕ АЛГОРИТМЫ
Для создания сводной таблицы я использовала алгоритм, которым вдохновилась в работах на сайте kaggle.com.
Далее группирую значения по полям с данными о наличии депрессии и исследуемым параметром. В качестве результирующего значения использую метод подсчета количества для каждой пары группировки «size», учитывающий пустые значения.
Преобразую таблицу в сводную таблицу методом unstack с заполнением пустых значений нулем.
Для перевода значений столбца на русский язык применяю алгоритм, который нашла на сайте stackoverflow.
Создаю словарь качества питания для перевода на русский язык, где ключ — это английское название, а значение — русское. При помощи метода replace заменяю в колонке английский текст на русский.
АНАЛИЗ ДАННЫХ
ВЛИЯНИЕ ДЕПРЕССИИ НА ПРОДОЛЖИТЕЛЬНОСТЬ СНА:
• переводим значения в колонке «Sleep Duration» на русский язык; • создаём новый DataFrame с нужными нам полями для анализа; • удаляем значения, которые нельзя интерпретировать (Others); • применяем алгоритм создания сводной таблицы.
ВЛИЯНИЕ ДЕПРЕССИИ НА ПИЩЕВОЕ ПОВЕДЕНИЕ:
• переводим значения в колонке «Dietary Habits» на русский язык; • создаём новый DataFrame с нужными нам полями для анализа; • удаляем значения, которые нельзя интерпретировать (Others); • применяем алгоритм создания сводной таблицы.
ВЛИЯНИЕ УРОВНЯ АКАДЕМИЧЕСКОГО ДАВЛЕНИЯ НА ДЕПРЕССИЮ:
• группируем данные в DataFrame по полю Academic Pressure; • рассчитываем какой процент студентов с депрессией выявлен для данного уровня академического давления в поле с результатом группировки.
ВЛИЯНИЕ ПОЛА НА СУИЦИДАЛЬНЫЕ МЫСЛИ:
• переводим значения в колонке «Gender» на русский язык; • переименовываем поле со значениями для удобства, оставляем только студентов с депрессией; • создаём новый DataFrame с нужными нам полями для анализа; • группируем по полю Gender и подсчитываем количество студентов для каждого пола.
РЕЗУЛЬТАТ
В итоге я получила 4 разных графика, для стилизации которых меняла цветовую палитру, расположение надписей, также добавляла сетку, где это было уместно.
ССЫЛКА НА DATASET И БЛОКНОТ




