Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Дальнейшая суммаризация: центр и рассеяние

П2.2. Центр и рассеяние: представление

Для дальнейшего исследования проблемы агрегирования данных рассмотрим возможность представления признака всего двумя числами. Первое число выражает положения распределения, его центральную или другую точку «нормы», а второе число показывает разброс распределения относительно центра. Мы рассмотрим наиболее популярные характеристики центра (табл. 2.1) и разброса (табл. 2.2). Наиболее популярным является понятие «среднее значение».

Рабочий пример 2.1. Среднее

Рассмотрим множество X = {1, 1,5, 3, 4, 1,2}. Его среднее вычисляется суммированием всех элементов с последующим делением на их количество: с = (1 + 1+ 5 + 3 + 4 + 1 + + 2)/7 = 17/7 = 2,42857..., и составляет, с округлением до первого знака, с = 2,4. Почему до первого? Потому что исходные данные — целые числа, и нет смысла вести вычисления с большей точностью.

Самостоятельная работа

  • 2.1.1. Рассчитайте средние значения количественных признаков в данных о Компаниях (см. табл. 1.2).
  • 2.1.2. Рассчитайте средние значения признаков в таксоне 1 (Iris setosa) данных об Ирисах (см. табл. 1.3).

С одной стороны, среднее значение — это самое точное приближение к числам из данного множества, которое можно получить. С другой стороны, среднее обладает нехорошим свойством: оно не устойчиво к выбросам. Если, например, добавить в множество X из рабочего примера 2.1 значение 23, сильно отличающееся от остальных, т.е. выброс, то среднее сильно увеличится: с = (17 + 23)/8 = 5. Для того чтобы избежать сдвига среднего значения при наличии выбросов, пользуются понятием «усеченное среднее» (trimmed mean). Усеченное среднее рассчитывают после того, как удаляют максимальные и минимальные наблюдения из диапазона данных. Медиана — крайний вариант усеченного среднего, когда оставляют только средний элемент упорядоченного по возрастанию ряда чисел множества X.

Обзор характеристик центра распределения

Таблица 2.1

п/п

Название

Объяснение

Комментарии

1

Среднее

значение

Среднее арифметическое значение признака

  • • Минимизирует сумму квадратов ошибок.
  • • Является оценкой математического ожидания распределения.
  • • Чувствительно к выбросам и форме распределения

2

Медиана

Середина упорядоченного ряда значений признака

  • • Минимизирует сумму модулей ошибок.
  • • Является оценкой математического ожидал ия распределения.
  • • Нечувствительна к выбросам.
  • • Чувствительна к форме распределения

3

Середина

Середина размаха

  • • Минимизирует максимум модулей ошибок.
  • • Является оценкой математического ожидания распределения.
  • • Чрезвычайно чувствительна к выбросам.
  • • Нечувствительна к форме распределения

Окончание табл. 2.1

п/п

Название

Объяснение

Комментарии

4

Р-квантиль, где Р - число

между 0 и 1

Значение, разделяющее исходное множество объектов в пропорции Р / (1 - Р) в соответствии со значениями признака таким образом, что число объектов с большими значениями признака пропорционально Р(верхний Р-квантиль) или 1 - Р (нижний Р-квантиль)

  • • Нечувствителен к выбросам.
  • • Чувствителен к форме распределения

5

Мода

Бин, на который приходится максимум гистограммы

  • • Зависит от размера бина.
  • • Может существовать несколько мод

Рабочий пример 2.2. Медиана

Вычислим медиану для множества Х= {1, 1, 5, 3, 4, 1,2} из предыдущего примера. Сначала отсортируем его в порядке возрастания: 1, 1, 1, 2, 3, 4, 5. Медиана определяется как элемент, находящийся в середине отсортированного ряда. В этом случае медиана равна 2, что меньше среднего значения 2,4. Следовательно, распределение сдвинуто влево, в сторону маленьких значений. Если добавить ко множеству X элемент 23, выброс, то отсортированный ряд примет вид: 1, 1, 1, 2, 3, 4, 5, 23. В середине нового ряда находятся два элемента, 2 и 3. Медиана находится как среднее этих двух элементов, т.е. равна (2 + 3)/2 = = 2,5. Заметим, что медиана изменяется гораздо меньше, чем среднее значение, которое для нового расширенного множества равно 5.

Самостоятельная работа

  • 2.2.1. Рассчитайте медианы количественных признаков в данных о Компаниях (см. табл. 1.2).
  • 2.1.2. Рассчитайте медианы признаков в таксоне 1 (Iris setosa) данных об Ирисах (см. табл. 1.3).

Чем симметричнее распределение, тем ближе друг к другу среднее значение и медиана. Ширина чашелистика из таблицы Ирисов (см. табл. 1.3) имеет среднее значение, равное 3,05 и медиану, равную 3, т.е. эти показатели довольно близки. Среднее степенного закона всегда сдвинуто в сторону больших значений. Поэтому в качестве центрального значения часто используют медиану, которая менее чувствительна к выбросам, поскольку равномерно добавленные с обеих сторон отсортированного ряда выбросы не влияют на его середину.

Середина соответствует среднему значению равномерного распределения, у которого частоты во всех бинах равны. В отличие от среднего значения и медианы, середина зависит только от размаха данных, а не от распределения. Очевидно, что она чрезвычайно чувствительна к выбросам, т.е. к изменениям максимального или минимального значений выборки.

Понятие Р-квантиля расширяет понятие медианы, которая является 50%-ным квантилем.

Рабочий пример 2.3. Р-кваптилъ (процетпиль) и фондовый коэффициент

Зададим уровень р = 10% и определим верхний 10%-ный квантиль для признака Ширина чашелистика w2. Это должно быть 1 б-е значение в отсортированных по убыванию данных, т.е. 3,6. Почему надо выбирать именно 16-е значение? Потому что всего имеется 150 объектов, 10% от их общего числа составляет 15. После удаления 15 объектов с наибольшей Шириной чашелистика, т.е. от 3,7 до 4,4 мм, первым становится именно 16-й объект, а для него значение признака равно 3,6. Аналогично, нижний 10%-ный квантиль определяется удалением последних 15 объектов в ряду, отсортированном по убыванию w2, т.е. значением признака на объекте номер 135 в этом ряду, 2,5. Это позволяет сказать, что Ширина чашелистика у 80% объектов заключена между 2,5 и 3,6, тогда как полный интервал значений меняется от 2,0 до 4,4.

Фондовый коэффициент характеризует уровень неравенства в распределении значений признака. Он определяется как отношение среднего самых больших 10% значений и среднего самых малых 10% значений. С использованием МатЛаба его можно посчитать так:

» w2s=sort(w2, ‘descend’);

» fc=mean(w2s( 1:15))/mean(w2s( 136:150)).

Первая команда сортирует w2 в порядке убывания, а вторая берет отношение средних для первых 15 и последних 15 значений сортированной последовательности. Получаем fc = 1,67. Эта разница нс очень велика. Фондовый коэффициент может быть значительно выше в социальных системах.

Самостоятельная работа

  • 2.3.1. Рассчитайте 5%-ный верхний квантиль признака «Длина чашелистика» по данным об Ирисах (см. табл. 1.3).
  • 2.3.2. Рассчитайте 10%-ный нижний квантиль признака SH по данным о компьютерных атаках (см. табл. 1.4).

Рабочий пример 2.4. Мода

Судя по гистограммам на рис. 2.2, некий бин в середине является модальным для распределения признака «Ширина чашелистика». В случае 5 бинов каждый бин занимает 1/5 от размаха признака, (4,4 - 2,0) / 5 = 0,48. Средний бии — это интервал от 2,96 до 3,44, его частота может быть рассчитана в МатЛабс с помощью команды

» m5=length(find(w2<=3.44 & w2>2.96)),

приводящей к ш5=68. Относительная частота моды в этом случае равна 68 / 150 = 0,453 или 45,3%. В случае 15 бинов каждый бин занимает 0,16 (почему?). Средний бин здесь — интервал от 2,96 до 3,12 и его частота — 37, т.е. 24,7%.

Самостоятельная работа

  • 2.4.1. Постройте гистограмму признака «Длина чашелистика» но данным об Ирисах (см. табл 1.3) с 10 бинами и определите модальный бин.
  • 2.4.2. Постройте гистограмму признака SH по данным о компьютерных атаках (см. табл. 1.4) с 5 бинами и определите моду.

Меры разброса используются для того, чтобы оценить степень ошибочности соответствующей характеристики центральности. Стандартное отклонение — это квадратный корень из средней квадратичной ошибки среднего значения. Популярность этой меры связана с принципом наименьших квадратов, который в настоящее время превалирует в анализе данных. Использование принципа наименьших квадратов может быть объяснено хорошими свойствами решений, которые он дает, с точки зрения анализа данных, и свойствами нормального распределения, с точки зрения теории вероятности. Более полное объяснение этого принципа приведено в подпараграфе Ф.2.2.

Таблица 2.2

Обзор характеристик рассеяния

п/п

Название

Объяснение

Комментарии

1

Стандартное

отклонение

Квадратный корень из среднего отклонения от среднего значения

  • • Минимизируется средним значением.
  • • Является оценкой квадратного корня из дисперсии распределения

п/п

Название

Объяснение

Комментарии

2

Абсолютное

отклонение

Среднее абсолютное отклонение от медианы

• Минимизируется медианой

3

Полуразмах

Максимальное отклонение от середины размаха

• Минимизируется серединой размаха

Абсолютное отклонение выражает среднее абсолютное отклонение от медианы. Как правило, его находят относительно среднего значения, поскольку именно среднее значение чаще всего берется в качестве центральной характеристики. Однако среднее абсолютное отклонение лучше соответствует медиане, так как именно медиана минимизирует его.

Полуразмах выражает максимально возможное отклонение значений от середины интервала, поэтому имеет смысл использовать середину интервала и полуразмах вместе, как это делают исследователи, изучающие методы построения классификационных правил.

В принципе, можно провести параллель между характеристиками рассеяния и характеристиками центра распределения под одинаковыми номерами в табл. 2.1 и 2.2.

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы