Ранговая корреляция

До сих пор мы анализировали зависимости между количественными переменными, измеренными в так называемых количественных шкалах, т.е. в шкалах с непрерывным множеством значений, позволяющих выявить, на сколько (или во сколько раз) проявление признака у одного объекта больше (меньше), чем у другого (например, производительность труда, себестоимость продукции и т.п.).

Вместе с тем на практике часто встречаются с необходимостью изучения связи между ординальными (порядковыми) переменными, измеренными в так называемой порядковой шкале. В этой шкале можно установить лишь п о ряд о к, в котором объекты выстраиваются по степени проявления признака (например, качество жилищных условий, тестовые баллы, экзаменационные оценки и т.п.). Если, скажем, по некоторой дисциплине два студента имеют оценки «отлично» и «удовлетворительно», то можно лишь утверждать, что уровень подготовки по этой дисциплине первого студента выше (больше), чем второго, но нельзя сказать, на сколько или во сколько раз больше.

Оказывается, что в таких случаях проблема оценки тесноты связи разрешима, если упорядочить, или ранжировать, объекты анализа по степени выраженности измеряемых признаков. При этом каждому объекту присваивается определенный номер, называемый рангом. Например, объекту с наименьшим проявлением (значением) признака присваивается ранг 1, следующему за ним — ранг 2 и т.д. Объекты можно располагать и в порядке убывания проявления (значений) признака. Если объекты ранжированы по двум признакам, то имеется возможность оценить тесноту связи между признаками, основываясь на рангах, т.е. тесноту ранговой корреляции.

Коэффициент ранговой корреляции Спирмена находится по формуле

где гх и Sj — ранги /-го объекта по переменным X и Y; п — число пар наблюдений.

Если ранги всех объектов равны (ri=sjy /=1,2,...., п), то р = 1, т.е. при полной прямой связи р = 1. При полной обратной связи, когда ранги объектов по двум переменным расположены в обратном порядке, можно показать,

что ~si)“ =(и3 -ю)/3 и по формуле (12.72) р = -1. Во всех остальных 1=1

случаях | р | < 1.

При ранжировании иногда сталкиваются со случаями, когда невозможно найти существенные различия между объектами по величине проявления рассматриваемого признака. Объекты, как говорят, оказываются связанными. Связанным объектам приписывают одинаковые средние ранги, такие, чтобы сумма всех рангов оставалась такой же, как и при отсутствии связанных рангов. Например, если четыре объекта оказались равнозначными в отношении рассматриваемого признака и невозможно определить, какие из четырех рангов (4, 5, 6, 7) приписать этим объектам, то каждому объекту приписывается средний ранг, равный (4+ 5 + 6 +7)/ 4 = 5,5.

При наличии связанных рангов ранговый коэффициент корреляции Спирмена вычисляется по формуле

mr, ms — число групп неразличимых рангов у переменных X и Y; tr, ts число рангов, входящих в группу неразличимых рангов переменных X и Y.

При проверке значимости р исходят из того, что в случае справедливости нулевой гипотезы об отсутствии корреляционной связи между переменными при п > 10 статистика

имеет ^распределение Стьюдента с k = п - 2 степенями свободы. Поэтому р значим на уровне а, если фактически наблюдаемое значение t будет больше критического (по абсолютной величине), т.е. 111 > tx_an_2, где t,_a „_2 табличное значение t-критерия Стыодента, определенное на уровне значимости а при числе степеней свободы k = п - 2.

t> Пример 12.11. По результатам тестирования 10 студентов по двум дисциплинам Л и В па основе набранных баллов получены следующие ранги (табл. 12.5). Вычислить ранговый коэффициент корреляции Спирмена и проверить его значимость на уровне а = 0,05.

Решение. Разности рангов и их квадраты поместим в последних двух строках табл. 12.5.

Таблица 12.5

Ранги по дисциплинам

Студент,i

Всего

1

2

3

4

5

6

7

8

9

10

Л г;

2

4

5

1

7,5

7,5

7,5

7,5

3

10

55

В Sj

2,5

6

4

1

2,5

7

8

9,5

5

9,5

55

- X,-

-0,5

-2

1

0

5

0,5

-0,5

-2

-2

0,5

(6-.V,)2

0,25

4

1

0

25

0,25

0,25

4

4

0,25

39

6-30

По формуле (12.73) р = 1--^—“ = 0>763. Однако формула (12.73)

не учитывает наличия связанных рангов.

По дисциплине А имеем т,.= 1 — одну группу неразличимых рангов с tr- 4 рангами; по дисциплине В - ms- 2 — две группы неразличимых рангов по ts= 2 ранга. Поэтому по формуле (12.75)

Находим по формуле (12.74)

Для проверки значимости р по формуле (12.76)[1] вычислим

? = 0,755-, ^ ^ = = 3,26 и найдем по табл. IV приложений ?0qva = yji-0J552

= 2,31. Так как t > ?095;8, то ранговый коэффициент корреляции р значим на 5%-ном уровне. Связь между оценками двух дисциплин достаточно тесная. ?

Коэффициент ранговой корреляции Кендалла находится по формуле

где К — статистика Кендалла[2].

Для определения К необходимо ранжировать объекты по одной переменной в порядке возрастания рангов (1, 2, п) и определить соответствующие их ранги (rh г2,гп) по другой переменной. Статистика К равна общему числу инверсий (нарушений порядка, когда большее число стоит слева от меньшего) в ранговой последовательности {ранжировке) rt, г2,..., гп. При полном совпадении двух ранжировок имеем К = 0 и т = 1; при полной противоположности можно показать, что К = п(п - 1)/2 и т = -1. Во всех остальных случаях |т| < 1.

При проверке значимости т исходят из того, что в случае справедливости нулевой гипотезы об отсутствии корреляционной связи между переменными (при п > 10) т имеет приближенно нормальный закон распределения с математическим ожиданием, равным нулю, и средним ква-

2(2я + 5)

дратическим отклонением sx = —Ц-г . Поэтому т значим на уровне а,

если значение статистики i ^пп~Y)

по абсолютной величине больше критического ?t_a, где 0(?t_a) = l-a.

Поясним вычисление рангового коэффициента корреляции Кендалла на примере.

0 Пример 12.12. В результате анкетного обследования для 10 важнейших видов оборудования, используемого судоводителями во время вахты, получены следующие ранги по важности оборудования X и но частоте его использования Y(табл. 12.6). Вычислить ранговый коэффициент Кендалла и оценить его значимость на уровне a = 0,05.

Решение. В последней строке табл. 12.6 представлены значения числа инверсий в ранжировках по переменной У для различных рангов по переменной X.

Таблица 12.6

Ранг

Тин оборудования

Всего

А

Б

В

Г

Д

Е

Ж

3

И

К

Важность оборудования X, п

1

2

3

4

5

6

7

8

9

10

_

Частота использования У, г.

1

4

2

6

3

9

10

8

7

5

_

Число инверсий

0

2

0

2

0

3

3

2

1

0

К-13

Найдем, например, число инверсий при ранге п - 6 по переменной X. Тогда соответствующий ранг по переменной У г6 = 9 и с учетом последующих рангов (см. табл. 12.6) имеем ранжировку по Y (9, 10, 8, 7, 5).

Из пар чисел (перестановок) (9, 10), (9, 8), (9, 7), (9, 5) инверсии (нарушения порядка, когда большее число стоит слева от меньшего) имеются у трех последних нар, г.е. число инверсий равно 3. Аналогично определяются и другие значения числа инверсий и находится их сумма К = 13. Теперь по формуле (12.77)

Оценим значимость т. Вычислим по формуле (12.78) значение ста- /9-10(10-1)

тистики t = 0,422 I ^ ^—ру- = 8,49, по табл. IV приложений ?095 = 1.96.

Так как t > t095, то ранговый коэффициент корреляции Кендалла значим на 5%-ном уровне. Связь между рассматриваемыми переменными умеренная. ?

Сравнивая коэффициенты ранговой корреляции р (Спирмена) и т (Кендалла), можно отметить, что хотя вычисление т более трудоемко, коэффициент т обладает некоторыми преимуществами перед р при исследовании его статистических свойств (например, возможностью приближенного построения доверительного интервала для т) и большим удобством его пересчета при добавлении к п статистически обследованным объектам новых, т.е. при удлинении анализируемых ранжировок.

Значения коэффициентов р и т тесно связаны между собой.

При умеренно больших значениях п (п > 10) и при условии, что абсолютные величины значений этих коэффициентов не слишком близки к единице, их связывает простое приближенное соотношение р ~ 1,5т.

Ранговые коэффициенты корреляции р и т могут быть использованы и для оценки тесноты связи между обычными количественными пере-

менными, измеряемыми в интервальных шкалах. Достоинство р и т здесь заключается в том, что нахождение этих коэффициентов не требует нормального распределения переменных, линейной связи между ними (хотя и предполагает монотонность функции регрессии, отражающей эту связь). Однако необходимо учитывать, что при переходе от первоначальных значений переменных к их рангам происходит определенная потеря информации. Чем теснее связь, чем меньше корреляционная зависимость между переменными отличается от линейной, тем ближе коэффициент Спирмена р к коэффициенту парной корреляции г.

В практике статистических исследований встречаются случаи, когда совокупность объектов характеризуется не двумя, а несколькими последовательностями рангов (ранжировками) и необходимо установить статистическую связь между несколькими переменными. Такие задачи возникают, например, при анализе экспертных оценок, когда необходимо установить меру их согласованности.

В качестве такого измерителя используют коэффициент конкордации (iсогласованности) рангов Кендалла W, определяемый по формуле

где п — число объектов; т — число анализируемых порядковых переменных;

— отклонение суммы рангов объекта от средней их суммы для всех объектов, равной т(п + 1 )/2.

Можно доказать, что значения коэффициента W заключены на отрезке [0; 11, т.е. 0 1, причем W= 1 при совпадении всех ранжировок.

Проверка значимости коэффициента конкордации основана на том, что в случае справедливости нулевой гипотезы об отсутствии корреляционной связи при п>1 статистика т(п - )W имеет приближенно ^-распределение с k = п - 1 степенями свободы. Поэтому W значим на уровне а, если

[> Пример 12.13. Группа из 5 экспертов оценивает качество изделий, изготовленных на 7 предприятиях. Их предпочтения представлены в табл.

12.7. Вычислить коэффициент конкордации рангов и оценить его значимость на уровне а = 0,05.

Решение. В итоговой строке табл. 12.7 приведены суммы рангов изделий по каждому из 7 предприятий, полученных от 5 экспертов. Общая сумма

1

Формула для расчета W при наличии связанных рангов здесь не приводится.

1

рангов равна 140. Средняя сумма рангов равна ?п{п + 1)/2 = 5(7+1)/2 = 20 или, иначе, 140/7 = 20.

Таблица 12.7

Эксперт,/

Предприятие, ?

Итого

1

2

3

4

5

Г)

7

1

1

3

4

2

е

7

5

2

1

2

5

3

е

4

7

3

2

1

7

5

е

4

3

4

1

2

4

6

3

5

7

5

3

1

5

4

2

6

7

5

Сумма рангов ^ М

8

9

25

20

23

26

29

140

D

-12

-11

5

0

3

6

9

D2

144

121

25

0

9

36

81

416

5

В предпоследней строке табл. 12.7 помещены разности D ='??-- 20, а в последней строке — их квадраты D2. i=x

Коэффициент конкордации по формуле (12.79) W = w 0,594.

52(73-7j

Оценим значимость WK Вычислим т (п - 1) W= 5 • 6 • 0,594 = 17,83; по табл. V приложений Xq05.6 = 12,59 . Так как т(п - l)V>05.6, то коэффициент

конкордации W значим на 5%-ном уровне. Таким образом, существует достаточно тесная согласованность мнений экспертов. ?

Корреляционный анализ может быть использован и при оценке взаимосвязи качественных (категоризованных) признаков (переменных), представленных в так называемой номинальной шкале, в которой возможно лишь различение объектов по возможным состояниям, градациям (например, пол, социальное положение, профессия и т.п.). Здесь в качестве соответствующих показателей могут быть использованы коэффициенты ассоциации, контингепции (сопряженности), бисериальной корреляции. Эти вопросы рассмотрены, например, в [2, 24, 371.

  • [1] В примерах 12.11 и 12.12 использованы приближенно при п = 10 критерии проверкизначимости соответственно р и т, справедливые, вообще говоря, при п > 10.
  • [2] Формула для расчета т при наличии связанных рангов здесь не приводится.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >