Корреляционный анализ взаимосвязи качественных признаков

В зависимости от вида шкал, в которых измерены эмпирические данные, используются разные методы определения степени и направления связи. Так, выше мы познакомились с коэффициентом корреляции Пирсона (см. параграф 3.2), вычисляемым для метрических шкал. Для номинальных шкал в качестве меры связи вычисляются коэффициент(фи) и коэффициент V Крамера, для порядковых – коэффициент(гамма),– коэффициент Спирмена,– коэффициент Кенделла, также для изучения взаимосвязи признаков, не поддающихся количественному измерению, используют коэффициенты конкордации, ассоциации, контингенции и др. Для расчета этих коэффициентов элементы совокупности располагают в определенном порядке в соответствии с некоторыми признаками (качественным и количественным), т.е. производят ранжирование. При этом каждому объекту присваивается порядковый номер, называемый рангом. Например, элементу с наименьшим значением признака присваивается ранг 1, следующему за ним элементу – ранг 2 и т.д. Элементы можно располагать также в порядке убывания значений признака.

Ранжировка – это расположение наблюдений в порядке убывания степени проявления в них k-го изучаемого свойства. В этом случае называют рангом i-го наблюдения (объекта) по k-му признаку. Он характеризует порядковое место (ранг), которое занимает наблюдение в ранжированном ряду.

Если объекты ранжированы по двум признакам, то можно изменить силу связи между признаками, основываясь на значениях рангов.

В случаях неразличимости рангов используют объединенные (или связные) ранги. В этом случае старые (неразличимые) ранги заменяются на новые, которые равны средней арифметической от рангов, входящих в данную группу. Например, если в ранжировке объекты, находящиеся на 3–6-м местах, неразличимы по данному признаку, то каждому из них присваивается ранг, равный, т.е. мы получим последовательность 4,5; 4,5; 4,5; 4,5.

В случае если хотя бы одна переменная представлена в количественной шкале, могут использоваться р – коэффициент Спирмена (или, что то же самое, (г)), т – коэффициент Кенделла и коэффициент у (гамма). Это непараметрические показатели связи, использование которых не требует обязательного выполнения предпосылки о нормальности распределения данных.

Ранговый коэффициент корреляции Спирмена. Для измерения степени тесноты связи между ранжировками

К. Спирмен в 1904 г. предложил показатель, который впоследствии был назван ранговым коэффициентом корреляции Спирмена:

(3.5)

или

(3.5')

где d – разность значений рангов, расположенных в двух рядах у одного и того же объекта.

Таким образом, расчет коэффициента корреляции Спирмена состоит из следующих шагов.

  • 1. Сопоставить каждому признаку его порядковый номер (ранг) по возрастанию или убыванию значений.
  • 2. Определить разности рангов для каждой нары сопоставляемых значений.
  • 3. Возвести в квадрат каждую разность, затем просуммировать полученные результаты.
  • 4. Вычислить коэффициент корреляции Спирмена по формуле (3.5) или (3.5').

Коэффициент ранговой корреляции Спирмена является парным, и его использование не связано с предпосылкой нормальности распределения исходных данных.

Прямым подсчетом нетрудно убедиться в том, чтодля совпадающих ранжировок, когдадля всех i = 1,2,..., п. В противном случае, когдадля всех i = 1,2,..., п, т.е. ранжировки противоположны, он равен. Во всех остальных случаях, т.е. ранговый коэффициент корреляции Спирмена изменяется в интервале от -1 до +1. Если ранговый коэффициент корреляции Спирмена равен нулю, то между ранжировками (показателями) связь отсутствует.

Отметим, что формула (3.5) используется в случае отсутствия объединенных рангов в обеих исследуемых ранжировках.

В общем случае, когда имеют место объединенные ранги, для каждой ранжировки по k-щ признаку определяют величину

где m(k) – число групп неразличимых рангов у переменной (см. формулу (3.4); – число элементов (рангов), входящих в t-ю группу неразличных рангов.

В случае отсутствия объединенных рангов и .

В этом случае ранговый коэффициент Спирмена определяется по формуле

Если и значительно меньше , то можно воспользоваться приближенным соотношением

Проверка значимости рангового коэффициента корреляции Спирмена. Для вычисления ранговых коэффициентов обычно используют небольшой массив исходных данных, поэтому для переноса результатов на генеральную совокупность необходимо проверять значимость коэффициентов. Для того чтобы при уровне значимости а проверить нулевую гипотезу о равенстве нулю генерального рангового коэффициента корреляции Спирмена при конкурирующей гипотезе , необходимо сравнить наблюдаемое (расчетное) значение коэффициена корреляции с критическим значением статистики, которс определяется по формуле

Если , то нет оснований отвергнуть нулевую гипотезу, следовательно, ранговая корреляция между качественными признаками не значима. В противном случае нулевая гипотеза Н0 об отсутствии корреляционной связи отвергается с вероятностью ошибки а. Таким образом, если полученное значение коэффициента ранговой корреляции Спирмена превышает критическое значение статистики при заданном уровне значимости а, то величина р не является результатом случайных совпадений рангов.

Недостатки коэффициента корреляции Спирмена:

  • • невозможность построения частных коэффициентов корреляции;
  • • необходимость полного пересчета при добавлении нового объекта.

Пример 3.8 [17]

При ранжировании оценок на вступительных экзаменах и средних баллов за экзаменационную сессию одних и тех же студентов получены следующие ранги (табл. 3.4).

Требуется проверить наличие статистически значимой взаимосвязи между оценкой на вступительных экзаменах и средним баллом за первую экзаменационную сессию.

Таблица 3.4

Оценки на вступительных экзаменах и средний балл за первую экзаменационную сессию

Параметр

Студент

А

Б

В

Г

Д

Е

Ж

3

И

К

Вступительный экзамен

2

5

6

1

4

10

7

8

3

9

Экзаменационная сессия

3

6

4

1

2

7

8

10

5

9

d

-1

-1

2

0

2

3

-1

-2

-2

0

d2

1

1

4

0

4

9

1

4

4

0

Решение

По таблице рассчитаем:

Значение коэффициента корреляции Спирмена, составившее 0,83, свидетельствует о достаточно высокой связи между изучаемыми признаками.

Проверка значимости полученного коэффициента корреляции Спирмена позволила сделать вывод о статистически значимой взаимосвязи между анализируемыми признаками. Наблюдаемое значение статистики 0,83 оказалось выше критического значения, найденного при заданном уровне значимости α = 0,05 и числе наблюдений п = 10. Таким образом, величина р не является результатом случайных совпадений рангов.

Пример 3.9

Две группы экспертов проанализировали 12 проектов с точки зрения их эффективности.

Ранжировка первой группы: 1: 3; 4; 2: 5; 6; 12: 7; 8: 9: 10: И.

Ранжировка второй группы: 2; 3; 1; 4: 6: 5: 9: 7; 8: 10: 12: 11.

Необходимо определить согласованность мнений экспертов в группах (т.е. существует ли связь между мнениями экспертов в группах).

Решение

Для расчета рангового коэффициента корреляции Спирмена воспользуемся формулой (3.4) и получим

Полученное значение коэффициента корреляции Спирмена составило 0,892, что свидетельствует о положительной ранговой связи между переменными и о согласованности мнений экспертов в группах.

Ранговый коэффициент корреляции Кенделла. Этот коэффициент используется для измерения связи между качественными и количественными переменными, характеризующими однородные объекты и ранжированные по одному принципу. Ранговый коэффициент корреляции Кенделла определяется по формуле

где S = Р + Q – фактическая сумма рангов: Р – сумма чисел, вычисленных для каждого ранга признака как число последующих рангов, меньших по своей величине, чем взятый ранг; Q – сумма чисел, вычисленных для каждого ранга признака как число последующих рангов, больших по своей величине, чем взятый ранг (эти числа берутся со знаком "минус").

Как правило, коэффициент Кенделла меньше коэффициента Спирмена.

Ранговый коэффициент корреляции Кенделла изменяется в интервале от -1,0 до +1,0. Связь между признаками признается значимой, если значения коэффициентов ранговой корреляции больше 0,5.

Для вычисления т сначала ранжируют ряд значений признаках, располагая их в порядке возрастания, приведя его к ряду натуральных чисел. Затем рассматривают последовательность рангов переменной у. Против ранга х записывают соответствующий ему ранг у. Результат оформляют в табличной форме.

В табл. 3.5 приведен пример расчета рангового коэффициента корреляции Кенделла.

Таблица 3.5

Вспомогательная таблица для вычисления т

Ранг признака-фактора х

1

2

3

4

5

6

7

Ранг результативного признака у

7

6

4

5

3

2

1

На основе приведенных данных рассчитаем ранговый коэффициент корреляции Кенделла:

P=0+0+1+0+0+0+1 (число рангов, превышающих ранг 7, равно нулю; число рангов, превышающих ранг 6, равно нулю; число рангов, превышающих ранг 4, равно единице; число рангов, превышающих ранг 5, равно нулю; и т.д.);

Полученный коэффициент позволяет сделать вывод о высокой степени тесноты обратной связи.

Коэффициент ассоциации Юла и коэффициент контингенции Пирсона. Для исследования степени тесноты связи между качественными признаками, каждый из которых представлен в виде альтернативных признаков, могут быть использованы коэффициент ассоциации Юла и коэффициент контингенции Пирсона.

Для расчета этих коэффициентов используется расчетная таблица, состоящая из четырех ячеек (таблица "четырех полей"). Статистическое сказуемое такой таблицы приведено в табл. 3.6.

В таблице– частоты взаимного сочетания (комбинации) двух альтернативных признаков:; п – общая сумма частот.

Коэффициент ассоциации обозначается КА и рассчитывается но формуле

Таблица 3.6

Расчетная таблица "четырех полей"

Признак

А (да)

А (пет)

Итого

В (да)

А

Ь

a + b

В(нет)

С

d

c + d

Итого

а + с

b + d

п

Коэффициент ассоциации изменяется в интервале от -1,0 до +1,0.

Коэффициент контингенции обозначается КК и рассчитывается по формуле

где– числа в таблице "четырех полей".

Коэффициент контингенции изменяется в интервале от -1,0 до +1,0, но всегда его величина для одних и тех же данных меньше, чем коэффициента ассоциации.

Коэффициенты взаимной сопряженности [43]. Для оценки тесноты связи между альтернативными признаками, принимающими любое число вариантов значений, используются коэффициент взаимной сопряженности, предложенный К. Пирсоном, и коэффициент взаимной сопряженности, предложенный А. А. Чупровым.

Для расчета этих коэффициентов используется вспомогательная таблица, в которой располагается статистическая информация (табл. 3.7).

Таблица 3.7

Вспомогательные данные для исследования связи между альтернативными признаками

Признак

А

В

С

Итого

D

Е

F

Итого

В таблице– частоты взаимного сочетания двух атрибутивных признаков; п – число пар наблюдений; i – номер строки; j – номер столбца; - суммарные частоты по строкам;– суммарные частоты по столбцам. Коэффициент взаимной сопряженности Пирсона обозначается через С и рассчитывается по формуле

где– показатель средней квадратической сопряженности, он определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответствующего столбца и строки, уменьшенная на единицу:

где– частоты каждой клетки;– номер строки;– номер столбца;– суммарные частоты по строкам;– суммарные частоты по столбцам.

Коэффициент взаимной сопряженности Чупрова обозначается через К и рассчитывается по формуле

где– показатель взаимной сопряженности (совпадает с показателем средней квадратической сопряженности, используемым для расчета коэффициента взаимной сопряженности Пирсона);– число групп по столбцам таблицы;– число групп но строкам таблицы.

Коэффициент взаимной сопряженности Чупрова (К) является более гибким, так как учитывает число образуемых по каждому признаку групп (и). Вследствие этого он является более предпочтительным по сравнению с коэффициентом взаимной сопряженности Пирсона.

В табл. 3.8 приведены основные показатели, используемые для измерения тесноты корреляционной связи неколичественных переменных.

Таблица 3.8

Показатели измерения тесноты корреляционной связи

Показатели измерения тесноты корреляционной связи

Обозначение

Характеристика

Коэффициент корреляции рангов Спирмена

Количественные и качественные признаки, основан на их ранжировании

Коэффициент корреляции рангов Кенделла

То же

Коэффициент ассоциации Юла

Качественные альтернативные признаки; использование таблицы "четырех полей"

Коэффициент контингенции Пирсона

То же

Коэффициент взаимной сопряженности Пирсона

с

Альтернативные признаки при любом числе вариантов

Коэффициент взаимной сопряженности Чупрова

к

То же

 
< Пред   СОДЕРЖАНИЕ     След >