Описание
Более 100 миллиардов бананов съедают на нашей планете каждый год, что делает их одним из самых популярных сельскохозяйственных продуктов.
И я в числе тех, кто покупает бананы круглый год!

Датасет данных с качеством бананов (почему он?)
Данный набор данных был выбран по той причине, что в дальнейшем с ним можно будет проводить интересную работу по классификации бананов, а также предсказывать качество бананов, используя регрессию, чтобы покупать только вкусные бананы!
Источник данных — kaggle.com
Описание данных
sample_id: Уникальный идентификатор, присвоенный каждому образцу банана в датасете. Это позволяет отслеживать и уникально ссылаться на образцы.
variety: Сорт или порода банана, например, Кавендиш, Красный Дакка или Леди Фингер. Знание конкретного сорта банана дает контекст для физических характеристик образца и условий его выращивания.
region: Географическое происхождение банана, например, Эквадор, Филиппины или Коста-Рика. Регион может влиять на такие факторы, как климат, почва и методы выращивания, которые сказываются на качестве банана.

quality_score: Числовой балл, вероятно, в диапазоне от 1 до 4, который оценивает общее качество образца банана. Это может включать такие факторы, как внешний вид, текстура и отсутствие дефектов.
quality_category: Текстовая метка, которая классифицирует балл качества в более широкие категории, такие как «Отличное» и т. д. Это облегчает восприятие оценки качества.
ripeness_index: Числовой индекс, представляющий уровень зрелости банана, возможно, в диапазоне от 1 (зеленый/незрелый) до 10 (перезрелый). Это количественно оценивает зрелость фрукта.
ripeness_category: Текстовая метка, такая как «Зеленый», «Желтый», «Созревший» или «Перезрелый», соответствующая индексу зрелости. Это дает четкую качественную классификацию зрелости.
sugar_content_brix: Содержание сахара в банане, измеряемое в градусах Брикса. Это распространенный способ оценки сладости и качества фрукта.
firmness_kgf: Твердость банана, измеряемая в килограммах-силе. Это показывает текстуру и зрелость образца.
length_cm: Физическая длина банана в сантиметрах. Этот показатель может варьироваться в зависимости от сорта и условий выращивания.
Графики
Было решено построить распределение качества бананов по категориям и по зрелости в виде гистограмм, поскольку именно гистограммы отображают количество данных каждого класса для понимания возможности дальнейшего обучения.
Графики зависимости качества банана от региона, содержания сахара и возраста дерева были представлены в качестве линейных чтобы посмотреть на возможность предсказания качества бананов, используя регрессию.
(1)
Гистограмма Распределение качества бананов по категориям
plt.figure () sns.countplot (x='quality_category', data=df, order=df['quality_category'].value_counts ().index, palette="viridis») plt.title ('Распределение качества бананов по категориям', fontsize=14) plt.xlabel ('Категория качества', fontsize=12) plt.ylabel ('Количество', fontsize=12) plt.show ()
((2))
Гистограмма Распределение зрелости бананов
plt.figure () sns.countplot (x='ripeness_category', data=df, order=df['ripeness_category'].value_counts ().index, palette="plasma») plt.title ('Распределение зрелости бананов', fontsize=14) plt.xlabel ('Категория зрелости', fontsize=12) plt.ylabel ('Количество', fontsize=12) plt.show ()
(((3)))
Линейный график Зависимость качества бананов от региона
plt.figure () df.groupby ('region')['quality_score'].mean ().sort_values ().plot (kind='line', marker='o', color='teal') plt.title ('Зависимость качества бананов от региона', fontsize=14) plt.xlabel ('Регион', fontsize=12) plt.ylabel ('Средний балл качества', fontsize=12) plt.xticks (rotation=45) plt.show ()
((((4))))
Линейный график Зависимость качества бананов от содержания сахара
plt.figure () sns.lineplot (x='sugar_content_brix', y='quality_score', data=df, ci=None, color='orange') plt.title ('Зависимость качества бананов от содержания сахара', fontsize=14) plt.xlabel ('Содержание сахара (Brix)', fontsize=12) plt.ylabel ('Балл качества', fontsize=12) plt.show ()
(((((5)))))
Линейный график Зависимость качества бананов от возраста
plt.figure () sns.lineplot (x='tree_age_years', y='quality_score', data=df, ci=None, color='purple') plt.title ('Зависимость качества бананов от возраста дерева', fontsize=14) plt.xlabel ('Возраст дерева (лет)', fontsize=12) plt.ylabel ('Балл качества', fontsize=12) plt.show ()
Список источников
Блокнот и датасет




