Анализ данных сыров по их различным характеристикам на BRND

Концепция

Недавно мне попалась новостная статья о том, что американская активистка и студентка юридического факультета Адела Кохаб была вынуждена пройти лечение в соответствующем учреждении из-за своей сырной зависимости. Девушка сильно поправилась от этого продукта и была буквально одержима им, поэтому ей пришлось отдать немалую сумму на оздоровительный курс в Южной Каролине.

Признаться честно, я тоже безумно люблю сыр. Закупиться разными его видами, мёдом и ещё всяким разным, с чем он сочетается — это просто невероятно. Помимо этого, блюда, в которых содержится сыр — почти с наибольшей вероятностью то, что будет безмерно вкусным… В общем, как можно понять из вышенаписанного, я тоже одержима сыром.

Именно поэтому я решила поискать базу данных о разных видах сыра, о странах их происхождения, о том, какое молоко используется для изготовления, и т. д. Выбор подобного направления поиска связан не только с моей безграничной любовью к сыру, но и с желанием узнать для себя что-нибудь новое и, возможно, неочевидное об этом продукте, разобраться, в какой стране стоит брать тот или иной его вид.

Итак, после просмотренного курса о программировании в креативных индустриях я узнала о полезном ресурсе kaggle, в котором хранятся работы специалистов по Data Science. По поисковому слову «cheese» мне выпала база данных 2024 года о сырах (Global Cheese Dataset), их сортах, происхождении и характеристиках.

Исходный размер 1280x707

https://www.kaggle.com/datasets/umerhaddii/global-cheese-dataset/data

База данных тут

Использованные графики:

(01) /Столбчатая и точечная диаграммы/. (02) /Линейный график/. (03) /Столбчатая диаграмма/. (04) /Столбчатая диаграмма/. (05) /Круговая диаграмма/.

О каждом из них более подробно ниже в разделе «Процесс работы».

Блокнот с кодом тут

Процесс работы

В начале работы я импортировала в среде программирования Google Collab несколько библиотек Python, которые часто используются для анализа данных и визуализации.

Ниже показано импортирование трёх библиотек: pandas (предоставляет структуру данных DataFrame, которая является таблицей с индексами, строками и столбцами, аналогично таблице в Excel), matplotlib (предоставляет инструменты для создания различных типов графиков и визуализаций) и seaborn (библиотека, построенная на основе matplotlib и обеспечивающая более эстетичный и интуитивно понятный способ создания графиков статистических данных). Для этих библиотек задаются специальные сокращения, чтобы в дальнейшем код был удобнее и не нужно было писать полное их название. Следующим шагом является загрузка базы данных из CSV-файла, чтобы на её основе программа рисовала графики, используя параметры, которые в дальнейшем будут заданы.

Исходный размер 1280x141

01 // Столбчатая диаграмма //

Показывает количество сортов сыра в определённых странах происхождения. По оси Х названия стран было решено визуализировать под углом 90 градусов, так как данных много и нужно всё уместить.

Исходный размер 1280x747

Исходный размер 1280x155

Далее я решила попробовать на основе этих же данных создать точечную диаграмму. Для этого я просто поменяла название графика в коде (с bar plot на scatter plot). Вероятно, из-за большого количества данных по странам, столбики в первой диаграмме плохо видны из0за того, что, например в той или иной стране не распространено много видов сыра, а точки, получевшиеся во втором варианте, более заметны в данном случае.

Исходный размер 1280x855

02 // Линейный график //

В этом графике анализируется небольшое количество данных о соотношении количества видов сыров с видами молока, из которых они изготавливаются. Почему ограниченное количество данных? Потому что возникла мысль о том, чтобы взять наиболее популярные виды молока и посмотреть среди них, из каких именно изготавливается наибольшее количество сыров. Подобный график иллюстрирует разнообразие видов, которое можно изготовить из того или иного молока.

Исходный размер 1280x983

Исходный размер 1280x125

03 // Столбчатая диаграмма //

Эта визуализации о соотношении сыров с разными типами корки. Показывает, сколько сыров имеет тот или иной вид корки. На столбцах чётко прослеживается, какая корка наиболее часто существующая среди большого количества сыров. Названия корки по оси X расположены диагонально, чтобы их было легче считывать и нижнее поле не выглядело перегруженным.

Исходный размер 1280x917

Исходный размер 1280x151

04 // Столбчатая диаграмма //.

Показывает соотношение видов сыров с разными их цветами. В данном случае берётся три наиболее популярных цвета по оси Х, столбцы получаются довольно широкие, поэтому название цветов ставить как-то иначе, под другим углом и т. д., смысла нет.

Исходный размер 1280x969

Исходный размер 1280x140

05 // Круговая диаграмма //.

Подобная визуализация наглядно показывает, насколько популярен тот или иной аспект. Это удобно представлять в виде «кусочков» круга, так лучше видно процентное соотношение. В данном случае диаграмма визуализирует топ-5 самых распространённых вкусов у сыров среди разных сран.

Исходный размер 1102x902

Исходный размер 1280x98

Генерация обложки

Исходный размер 1280x717

https://ideogram.ai/g/vycgQTwsRRKNX7vF92RRXg/3

Для создания обложки я воспользовалась нейросетью Ideogram. В промпте (см. ниже) задала нужные характеристики и формат изображения.

Промпт: «Create a contrasting realistic image of a composition of different types of cheeses. Make a studio light and the image size is 1140 by 1600 pixels»

Заключение

Анализ данных и их визуализация позволяют нам проще и понятнее воспринимать тот или иной массив данных, делают его нагляднее. Таким образом, в этом проекте я старалась по-разному предсавить информацию, взятую из базы данных о сырах, делая акценты на разных характеристиках, по которым можно рассмотреть сыры.