Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

П3.4.3. Коэффициент хи-квадрат как индекс связи и визуализация его структуры

Относительно удачная визуализация таблицы сопряженности получается с помощью индексов Кетле, взвешенных вероятностями соответствующих ячеек таблицы, как объясняется в подпараграфе Ф3.4. Сумма этих величин приводит к одному из наиболее популярных понятий анализа таблиц сопряженности, так называемому коэффициенту сопряженности хи-квадрат. Этот коэффициент был предложен К. Пирсоном (1901) как мера отклонения наблюдаемого двумерного распределения в таблице сопряженности от условия статистической независимости признаков.

Два признака считаются статистически независимыми, если все возможные пары их категорий статистически независимы, т.е. вероятность/частота их совместного появления равна произведению вероятностей этих категорий по отдельности. К. Пирсон рассматривал ситуацию, когда два признака статистически независимы в популяции, но в рассматриваемой конкретной выборке независимость не выполняется из-за случайных отклонений выборки. Он предложил взять квадрат разности наблюденной частоты и величины, полученной при выполнении предположения независимости, и разделить его на «теоретическую» вероятность, истинную для популяции. Суммарный индекс носит название коэффициент Пирсона хи-квадрат (см. формулы (3.18)—(3.19)). Распределение суммарного коэффициента хи-квадрат, умноженного на численность выборки, при условии справедливости гипотезы независимости в популяции, сходится к так называемому распределению хи-квадрат, которое используется в статистике для проверки гипотезы независимости двух признаков. Статистики утверждают поэтому, что коэффициент может быть использован только для тестирования гипотезы независимости, но не как мера коррелированное™. Согласно этому мнению коэффициент хи-квадрат должен использоваться для различения только двух случаев: статистической независимости и ее отсутствия, так что его числовое значение само по себе не может использоваться как характеристика степени зависимости. Впрочем, практики часто не следуют этому указанию и используют хи-квадрат как меру связи между двумя категоризованными признаками. Как свидетельствует формула (3.19), в этом нет ничего плохого или некорректного. Коэффициент сопряженности хи-квадрат по своей сути нс что иное как усредненный индекс Кегле, и значит, характеризует среднюю степень связи между категориями двух признаков. Болес точно, усредненный индекс Кстле, а значит и коэффициент хи-квадрат, показывает, на сколько в среднем относительно увеличится вероятность категории одного признака при условии, что категория другого признака становится известной.

Рабочий пример 3.13. Визуализация таблицы сопряженности с использованием взвешенного индекса Кетле

Умножим коэффициенты Кетле из табл. 3.18 на частоты значений в соответствующих ячейках табл. 3.15. При этом следует выражать коэффициенты Кетле в табл. 3.18 в абсолютных величинах, а не в процентах. В результате получаем табл. 3.22, элементы которой суммируются к 0,152 — коэффициенту хи-квадрат Пирсона для табл. 3.14. Эта величина характеризует средний прирост вероятности категорий одного признака, когда значение второго признака становится известным: на 15,2%. Заметим, что значения в табл. 3.22 могут быть как положительными, так и отрицательными; те, чье значение по модулю больше удвоенного среднего, 2 • 0,152 / 8 = 0, 038, выделены жирным шрифтом — они сильно отклоняются от среднего. При этом столбец «4+» содержит как наибольший положительный, так и наибольший отрицательный вклады.

Таблица 3.22

Хи-квадрат для нары «Ба»/«Фр» и его разложение по уравнению (3.19)

«Фр»

10+

4+

2+

1-

Итого

Есть

0,030

0,120

-0,014

-0,014

0,122

Нет

-0,015

-0,042

0,046

0,041

0,030

Всего

0,015

0,078

0,032

0,027

0,152

Пара категорий считается статистически независимой, если вероятность (доля) совместного появления двух категорий равна произведению вероятностей этих категорий. Например, рассмотрим категорию «Есть» для Фермерского рынка и «4+» для числа банков «Ба» в табл. 3.15: вероятность их совместного появления равна 0,111. С другой стороны, вероятность того, что «Фр» = «Есть», равна 0,2, а вероятность того, что «Ба» = 4+, равна 0,267. Если бы две эти категории были независимы, то вместе их можно было бы наблюдать с частотой 0,2 • 0,267 = 0,053, примерно в 2 раза меньшей, чем в действительности, что говорит о том, что для этой пары говорить о статистической независимости не приходится.

Рабочий пример 3.14. Традиционное разложение коэффициента хи-квадрат

Рассмотрим общепринятый способ визуализации таблиц сопряженности, состоящий в том, что в ячейки таблицы сопряженности вписываются величины, которые удобно называть парными коэффициентами Пирсона. Коэффициент Пирсона для ячейки (k, /) это квадратный корень r(kt I) из величины, суммируемой в классической формуле (3.21) коэффициента хи-квадрат. Для рассматриваемых данных таблица коэффициентов Пирсона — в табл. 3.23. Эта таблица всегда показывает тот же паттерн отрицательных и положительных величин, что и разложение Кстлс. Однако здесь коэффициент хи-квадрат получается суммированием не самих элементов таблицы, а их квадратов. Тот факт, что суммарные значения в маргинальных полях табл. 3.22 и 3.23 одинаковы — не случайность: он объясняется математическим свойством, выраженным в уравнении (3.19).

Таблица 3.23

Квадратные корни из величин, суммируемых в традиционной формуле хи-квадрат Пирсона (NX2 =45 • 0,152 = 6,86); суммируемые значения указаны в скобках

ФРыиок

10+

4+

2+

1-

Сумма

Есть

0,73 (0,53)

1,68 (2,82)

-1,08(1,16)

-0,99 (0,98)

(5,49)

Нет

-0,36 (0,13)

-0,84 (0,70)

0,54 (0,29)

0,50 (0,25)

(1,37)

Сумма

(0.67)

(3,52)

(1.45)

(1,23)

(6,86)

Вопрос 3.18. В табл. 3.23 все маргинальные значения, суммы строк и столбцов, положительны, даже несмотря на то что многие из элементов таблицы — отрицательные. Является ли это лишь особенностью этой таблицы или же проявлением общего свойства?

Ответ. Проявление общего свойства: суммы элементов q(l / k) в строке или в столбце должны быть положительны, см. уравнение (3.19).

Вопрос 3.19. Постройте аналогичное разложение коэффициента хи-квадрат для пары Таксон/Длина лепестка по данным об ирисах.

Подсказка. Прежде всего категоризуйте количественный признак «Длина лепестка»; для этого можно использовать бины одинакового размера или любой другой разумный способ.

Вопрос 3.20. Можно ли составить какое-либо логическое правило вывода, основываясь на данных в столбцах табл. 3.17?

Ответ. Да, обе атаки, и Apache, и Saint, могут возникнуть лишь в протоколе tcp.

Вопрос 3.21. Рассмотрим следующую информацию, дополнительную к условиям В2.22. Среди покупателей в этом вопросе каждый, кто тратит на покупки ?60, это обязательно мужчина; каждый, кто тратит ?100, всегда женщина; а среди оставшихся 30 человек половина женщин и половина мужчин. Постройте таблицу сопряженности двух признаков: пол и расходы на покупки. Найдите и объясните величину коэффициента Кегле для пары категорий «женщины, которые тратят по ?100 каждая».

Ответ. Таблица сопряженности (численности совместного появления событий):

Расходы, ?

Пол

60

100

150

Итого

Жен.

0

20

15

35

Муж.

50

0

15

65

Итого

50

20

30

100

В данной таблице частоты совместного появления событий совпадают со своими процентными значениями, так как число покупателей равно 100.

Рассчитаем коэффициент Кстлс г/(Жен/?100) по формуле (3.16'):

Это означает, что вероятность того, что индивид в данной категории расходов окажется женщиной, больше средней частоты женщин на 186%.

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы