Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Ф3.4. Анализ таблиц сопряженности: формулировки

Рассмотрим два непересекающихся множества номинальных категорий на множестве объектов /: / = 1, ..., L (например, профессиональная принадлежность индивидов, составляющих Г) и к = 1,..., К (скажем, тип семьи или домашнего хозяйства у этих же индивидов). Каждое множество категорий задает разбиение множества /. Рассмотрим пересечение этих разбиений, чтобы агрегировать данные и проанализировать связь между двумя множествами категорий. Для пары категорий (к, /) е КL посчитаем количество таких объектов в множестве I, которые попадают в обе категории одновременно. Обозначим через Nkl количество случаев совместного появления нары (к, /). Очевидно, в сумме величины Додадут Аг, общее число объектов в /, поскольку категории одного и того же множества (а) не пересекаются и (б) покрывают все множество /. Таблица, в которой записаны все Nfj, или относительные величины — частоты ру =Ny / N} называется таблицей сопряженности или просто перекрестной классификацией. Суммарные значения: сумма по строке А^+ = X/ Nkj и сумма по столбцу N+! = X/, Nk! (так же как и их относительные значения с учетом числа строк и столбцов соответственно) называются маргинальными (поскольку находятся в крайнем столбце и крайней строке, т.с. на «полях» таблицы сопряженности).

Вероятность (эмпирическая) того, что категория / появится при наличии категории к, выражается как условная частота P(l / k)= рм/ pb+ = / Nk+y т.е. частота

категории / на подмножестве объектов, соответствующих категории к. Вероятность Р{1) категории / на всем множестве / есть р+{ = АГ+// N. Аналогичное обозначение используется для категорий к. Относительная разница между условной и безусловной вероятностями называется (относительным) индексом Кетле [24]:

где P(l)= N+i/ Ny P(k)= Nk+/ N P(l / k) = Nkj / Nk+ To есть индекс Кетле выражает связь между категориями к и / как относительное изменение вероятности появления / при возникновении условии к.

Используя простые алгебраические преобразования, можно получить более простое выражение:

Последнее обозначение, q(k, /), подчеркивает тот факт, очевидный из выведенной формулы (3.16'), что коэффициент Кетле симметричен относительно индексов к и /.

Выделение наибольших положительных и отрицательных значений индекса Кетле визуализирует структуру связи между двумя множествами категорий, как проиллюстрировано в табл. 3.19 и 3.22.

Это визуализированное представление может быть включено в традиционный статистический контекст. Определим интегральный индекс связи Кетле Q как сумму парных индексов Кетле, взвешенных их частотами (вероятностями):

Самос правое выражение в уравнении (3.17) не является чем-то необычным; напротив, оно довольно часто встречается в статистическом анализе таблиц сопряженности. Это не что иное, как альтернативная формула для коэффициента сопряженности хи-квадрат Пирсона (1901). Коэффициент хи-квадрат был введен, и с тех пор используется, в совершенно другом контексте — в качестве меры отклонения таблицы сопряженности от статистической независимости.

Для объяснения сказанного сформулируем математическое определение понятия статистической независимости. Множества категорий k и / статистически независимы, если pk! = Pk+P+i для всех k и /. Выполнение условия независимости в реальности маловероятно. К. Пирсон предложил использовать относительные квадратичные ошибки для того, чтобы оценить отклонение наблюдаемых частот от статистической независимости. А именно, он ввел следующий коэффициент, который и называется коэффициентом сопряженности хи-квадрат Пирсона[1]:

Уравнение справа может быть доказано с использованием элементарной алгебры. Рассмотрим, например, внутреннюю сумму из левой части выражения (3.18):

Выражение в правой части получено с использованием уравнений E/pw = = pk+ и ЕiP+i= 1. Просуммировав эти выражения по k, получим формулу (3.18). С другой стороны, последнее выведенное выше выражение, очевидно, равно ^РкйС/k), так что

Сравнивая правые части выражений (3.17) и (3.18), нетрудно заметить, что Х2 = Q. То же самое получается, если просуммировать уравнения (3.19) по всем k.

Популярность коэффициента X2 в статистике и смежных науках опирается на теорему, доказанную К. Пирсоном. Если таблица сопряженности построена по случайной и независимой выборке объектов из популяции, в которой выполняется условие статистической независимости (так что все отклонения обусловлены лишь случайностью выборки), то вероятностное распределение величины NX2 сходится к распределению хи-квадрат с числом степеней свободы, равным (К - 1 )(L - 1) (при стремлении N к бесконечности). Вероятностное распределение хи-квадрат с т степенями свободы определяется как распределение суммы квадратов т случайных величин, каждая из которых распределена по стандартному нормальному закону. Это означает, что величина хи-квадрат может использоваться для проверки гипотезы о статистической независимости.

Теорема Пирсона не всегда применима в анализе данных, поскольку данные могут быть не случайными, а наблюдения не обязательно независимыми. Вместе с тем коэффициент хи-квадрат Пирсона на практике иногда используется не столько для исследования независимости, сколько для оценки связи в таблицах сопряженности. Эта побочная, и в свете теоремы Пирсона некорректная, цель выглядит совершенно оправданной и корректной в свете уравнения X2 = Q. Данное уравнение вообще придает коэффициенту X2 другую интерпретацию — в данном контексте это не мера отклонения от независимости, а мера взаимосвязи между категориями — усредненный коэффициент Кетле. Таким образом, величина X2 = Q — не что иное, как среднее относительное приращение вероятности категории одного признака, полученное в результате того, что становится известной категория другого признака.

Для уточнения смысла X2 как коэффициента корреляции рассмотрим экстремальные значения X2, и ситуации, в которых эти значения достигаются [24]. Оказывается, что при К < L, т.е. когда число столбцов не превышает число строк, X2 изменяется в пределах от 0 до К - 1. X2 равен 0, если все пары (k, /) статистически независимы, так что все qM= 0. С другой стороны, X2 равен максимальному значению К — 1, если каждый столбец / содержит единственный ненулевой элемент - строку этого элемента обозначим ?(/), так что сам элемент будет Рщу, который при этом, естественно, равен р+[. В этом случае, очевидно, имеет место логическая импликация / => &(/). Таким образом, ^действительно измеряет связь. Его максимальное значение достигается тогда и только тогда, когда имеет место логическая связь «из / следует между категориями двух множеств.

Разложение коэффициента хи-квадрат через коэффициенты Кетле

позволяет представить X2 как сумму произведений р^(1 / k), и разместить эти произведения в соответствующих клетках таблицы сопряженности, как это сделано в табл. 3.22, где эти величины еще домножены на N, чтобы соответствовать величине NX2 из теоремы Пирсона.

Па самом деле не только общая сумма всех элементов совпадает с суммой хи-квадрат величин (р^ - Pk+P+i)2/ Pk+P+ь но и суммы по строкам и по столбцам также совпадают, что ясно следует из уравнения (3.19).

Тем не менее изначально все хи-квадрат величины в выражении (3.18) положительны. Поэтому иногда используются квадратные корни из этих величин, отражающие знак связи,

которые принято называть индексами Пирсона. Очевидно, X2 = Тк! r(k, I)2. Индексы Пирсона имеют те же знаки, что и ц(1 / к), и тесно с ними связаны: q(l / к) = = Kk, l)[(pk+P+i)V/2.

Вопрос 3.22. Рассмотрим два бинарных признака и построим для них таблицу сопряженности (ее часто называют четырехклеточной таблицей, табл. 3.24), где символы а, Ь, с, d используются для обозначения частот совместного появления.

Таблица 3.24

Таблица сопряженности двух бинарных признаков

Признак Y

Итого

Да 11ет

Признак X

Да

а Ь

С (1

а + с b + d

а + Ь с + d

Нет

Итого

N=a+b+c+d

Докажите, что коэффициент Кегле <ДДа/Да), характеризующий относительную разницу между а /(а+с) и (a+b)/N, равен

а усредненный коэффициент Кетле Q, или X2 Пирсона, равен

Вопрос 3.23. Докажите, что коэффициент корреляции двух бинарных 1/0 признаков, рассматриваемых как количественные, может быть выражен в терминах четырехклеточной таблицы как р = Jq, т.е.

Вопрос 3.24. Рассмотрим пару категорий к е К и I е L согласно К х L таблице сопряженности Р. Определим абсолютный индекс Кетле а(1 /к) = Р(1 /к) - Р(1) — изменение частоты leL на всем множестве объектов / при условии, что речь идет об объектах категории k. В соответствии с Р, Р(1) = р+/ и Р(1 /к) = Ры/р+/. Докажите, что усредненный абсолютный индекс Кетле А = T.kipkfl{l/к) = Ък1рк}/ркЛ. - - Т-l р+г1 равен следующему выражению, асимметричному аналогу хи-квадрата Пирсона:

Величина А является числителем известного асимметричного индекса, так называемого тау-б Гудмана-Крускала [13].

Ответ. В самом деле, возведя в квадрат знаменатель, преобразуем выражение (3.22) в равносильное ему выражение - 2рырк+р+1 + pk+2p+/2)/рк+, равное

^k,lPkf/Pk+ ~ 2Ткк1р+1 + TkJpk+p+i2 = Ткк?/рк+ - 2Ewp+/2 +TlP+l2, поскольку Ткры+1 и 1.крк+ = 1. Очевидно, это можно записать как Тк1 р^1к+ - Т/ p+j1 = = T-kjpkia(l/ к) = Л, что и доказывает утверждение.

3.1. Связь между признаками

Кстати говоря

3.1.1.

Ты кем работаешь?

  • — Ландшафтным дизайнером!
  • — Ух, ты! На компьютере?
  • — Нет... На бульдозере...
  • 3.1.2.
  • — А как же ты понял, что этот медведь — людоед?
  • — По глазам. Взгляд тот же, что и у жены...
  • 3.1.3. Дни рождения — вещь очень полезная. Как утверждает статистика, чем больше их у человека, тем дольше он живет.
  • 3.1.4. По сообщениям Госкомстата, за последний месяц цена па бензин в среднем но стране упала на 0,7%. Объем литра уменьшился на 1,2%.
  • 3.1.5. Мать сыну:
    • — Каждая твоя выходка — это еще один седой волос на голове!

Мальчик, глядя на седую бабушку:

  • — Я смотрю, ты в молодости тоже чудила помаленьку.
  • 3.1.6.
  • — Почему у слона глаза красные?
  • — Для того чтобы в помидорах мог прятаться.
  • — Видели когда-нибудь слона в помидорах?
  • — Хорошо прячется, правда?
  • 3.1.7. Статистика показывает, что на каждого мужчину свыше 85 лет приходится но 7 женщин. Но, увы, это уже слишком поздно!..

  • [1] Традиционно под коэффициентом Пирсона понимают NX2; мы отказываемся от этого, чтобыизбежать зависимости его величины от N.
 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы