Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Количественные признаки: распределение и гистограмма

Одномерные данные (1 D-данные) представляют собой набор объектов, описанных с помощью какого-либо одного признака, качественного или количественного. В этом случае нет смысла говорить о коррелировании — будут рассмотрены методы суммаризации. Не существует простого критерия, по которому можно было бы определить, является ли признак качественным или количественным. С практической точки зрения полезен следующий критерий: признак — количественный, если его среднее значение имеет смысл. Рассмотрим сначала случай, когда признак — количественный.

П2.1. Представление

Самый понятный и исчерпывающий способ агрегирования — это распределение, представленное так называемой гистограммой. На оси признака х отмечают границы, в которых изменяется признак, т.е. его минимальное и максимальное значения на имеющихся объектах. Отмеченный интервал, называемый также размахом признака, делят на некоторое число непересекающихся интервалов одинаковой длины, так называемых бииов (рис. 2.1). Затем подсчитывают, сколько объектов попадает в каждый отдельный бин, и рисуют столбики высотой, соответствующей числу объектов в бине. В результате получают гистограмму. Гистограммы для признаков таблицы Ирисов представлены на рис. 2.2.

Вопрос 2.1. Почему бины не должны пересекаться?

Ответ. Каждый объект попадает только в один бин, если бины не пересекаются так, что сумма чисел объектов в бинах совпадает с общим числом объектов. Если же бины пересекаются, то нарушается принцип «один объект — один голос».

Вопрос 2.2. Почему на рис. 2.2 прямоугольники на гистограммах слева выше прямоугольников на гистограммах справа?

Ответ. Потому что на гистограммах справа бины в 2 раза короче, чем на гистограммах слева. Следовательно, число объектов, в них попадающих, в среднем в 2 раза меньше.

Вопрос 2.3. Правда ли, что в случае всего двух бинов, их разделяет точка полуразмаха?

Ответ. Да, потому что размеры бинов совпадают, а их всего два в этом случае (см. рис. 2.1).

-1-1-1-1-?

О а (а + /;)/2 Ъ

Рис. 2.1. Если бинов всего два, их разделяет точка полуразмаха

На рис. 2.3 и 2.4 представлены два часто встречающихся типа гистограмм. Первый демонстрирует так называемый степенной закон, или распределение Парето, оно же — распределение Ципфа (см. рис. 2.3). Этот тип гистограммы часто встречается в социальных системах. Согласно эмпирическим исследованиям такие показатели, как уровень доходов, размер сообществ, уровень производительности и им подобные распределены но степенному закону. Получается, что ничтожно малая часть индивидов или объектов обладают большим богатством/популярно- стыо/производителыюстыо, в то время как большая часть индивидов остается почти ни с чем.

Гистограммы количественных признаков в таблице данных «Ирисы»

Рис. 2.2. Гистограммы количественных признаков в таблице данных «Ирисы»:

рассматриваемый признак отмечен на оси X, количество объектов — на оси Y. Форма диаграммы зависит не только от распределения, но и от числа бинов

Распределение степенного тина

Рис. 23. Распределение степенного тина

Тем не менее все участники — существенная часть системы, в которой «нищие» создают такую среду, что только несколько счастливчиков могут соперничать между собой.

Распределение Гауссова тина (в форме колокола)

Рис. 2.4. Распределение Гауссова тина (в форме колокола)

Другой вид распределения, часто встречающийся в природе, показан на рис. 2.4. Этот тип гистограмм соответствует так называемому нормальному, или Гауссову, закону распределения. Распределение ошибок измерений, и, в целом, величин, получаемых под действием небольших независимых друг от друга случайных эффектов, считаются Гауссовыми.

Гистограммы и круговые диаграммы (караваи) служат для изображения разных свойств распределения. Гистограммы используются для того, чтобы показать, как распределены объекты вдоль оси X, а караваи представляют относительные размеры частей распределения, попадающих в разные бины (рис. 2.5). Существует множество других форматов визуализации распределений, таких как пузырьковые, кольцевые, паутинные диаграммы.

Распределение ирисов в пяти бинах

Рис. 2.5. Распределение ирисов в пяти бинах:

в виде гистограммы (слева), круговой диаграммы (каравай, в центре), столбцовой диаграммы (bars, справа)

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы