Выборочный коэффициент ранговой корреляции Спирмена и проверка гипотезы о его значимости

Допустим, что объекты генеральной совокупности обладают двумя качественными признаками. Под качественным подразумевается признак, который невозможно измерить точно, но он позволяет сравнивать объекты между собой и, следовательно, расположить их в порядке убывания или возрастания качества. Для определенности будем всегда располагать объекты в порядке ухудшения качества. При таком «ранжировании» на первом месте находится объект наилучшего качества по сравнению с остальными; на втором месте окажется объект «хуже» первого, но «лучше» других и т.д.

Пусть выборка объема п содержит независимые объекты, которые обладают двумя качественными признаками Л и В. Для оценки степени связи признаков вводят, в частности, коэффициенты ранговой корреляции Спирмена (изложен в настоящем параграфе) и Кендалла (см. § 26).

Для практических целей использование ранговой корреляции весьма полезно. Например, если установлена высокая ранговая корреляция между двумя качественными признаками изделий, то достаточно контролировать изделия только по одному из признаков, что удешевляет и ускоряет контроль.

Расположим сначала объекты выборки в порядке ухудшения качества по признаку А при допущении, что все объекты имеют различное качество по обоим признакам (случай, когда это допущение не выполняется, рассмотрим ниже). Припишем объекту, стоящему на г-м месте, число — рапгх, равный порядковому номеру объекта. Например, ранг объекта, занимающего первое место, х, =1; объект, расположенный на втором месте, имеет рангх2 = 2 и т.д. В итоге получим последовательность рангов по признаку А: х, = 1, х2 = 2,..., хи = п.

Расположим теперь объекты в порядке убывания качества по признаку В и припишем каждому из них ранг yi, однако (для удобства сравнения рангов) индекс гири у будет по-прежнему равен порядковому номеру объекта по признаку А. Например, запись у2 = 5 означает, что по признаку А объект стоит на втором месте, а по признаку В — на пятом.

В итоге получим две последовательности рангов:

по признаку А .......х(, х2,..., хп

по признаку В .......yvyv У„

Заметим, что в первой строке индекс i совпадает с порядковым номером объекта, а во второй, вообще говоря, не совпадает. Итак, в общем случае х. Ф у..

Рассмотрим два «крайних случая».

  • 1. Пусть ранги по признакам АиВ совпадают при всех значениях индекса i: xj = yr В этом случае ухудшение качества по одному признаку влечет ухудшение качества по другому. Очевидно, признаки связаны: имеет место «полная прямая зависимость».
  • 2. Пусть ранги по признакам Л и В противоположны в том смысле, что если Xj = 1, то г/, = п; если х2 = 2, то у2 = п — 1;..., если хп = п, то уп = 1. В этом случае ухудшение качества по одному признаку влечет улучшение по другому. Очевидно, признаки связаны — имеет место «противоположная зависимость».

На практике чаще будет встречаться промежуточный случай, когда ухудшение качества по одному признаку влечет для некоторых объектов ухудшение, а для других — улучшение качества. Задача состоит в том, чтобы оценить связь между признаками. Для ее решения рассмотрим ранги Xj, х2,..., хп как возможные значения случайной величины Ху а у yv ..., уп как возможные значения случайной величины У. Таким образом, о связи между качественными признаками А и В можно судить по связи между случайными величинами X и У, для оценки которой используем коэффициент корреляции.

Вычислим выборочный коэффициент корреляции случайных величин X и У в условных вариантах (см. гл. 18, § 8):

приняв в качестве условных вариант отклонения u{ = xj — х, vi = = у{ - у. Каждому рангу х соответствует только один ранг у. у поэтому частота любой пары рангов с одинаковыми индексами, а следовательно, и любой пары условных вариант с одинаковыми индексами равна единице: nuv = 1. Очевидно, что частота любой пары вариант с разными индексами равна нулю. Учитывая, кроме того, что среднее значение отклонения равно нулю (см. гл. 16, § 7, следствие),^. U = v = 0, получим более простую формулу вычисления выборочного коэффициента корреляции:

Таким образом, надо найти Gu и Gv-

Выразим • uivi через известные числа — объем выборки п и разности рангов d. = х - ух. Заметим, что поскольку средние значения рангов х = (1 + 2+ ... + п)/п и у = { 1 + 2+ ... +п)/п равны между собой, то у -х - 0. Используем последнее равенство:

Следовательно,

Учитывая, что (см. далее пояснение) имеем

Отсюда

Остается найти аи и стг. 11о определению выборочной дисперсии, Зачитывая, что й = 0, и используя (**), получим

Отсюда среднее квадратическое отклонение

Аналогично найдем

Следовательно,

Подставив правые части этого равенства и соотношения (***) в (*), окончательно получим выборочный коэффициент ранговой корреляции Спирмена

где d. = х - у..

Пояснение.Покажем,что = (и3 -п)/12. Действительно, учитывая, что

после элементарных выкладок получим Аналогично можно показать, что

Приведем свойства выборочного коэффициента корреляции Спирмена.

Свойство 1. Если между качественными признаками АиВ имеется «полная прямая зависимость» в том смысле, что ранги объектов совпадают при всех значениях i, то выборочный коэффициент ранговой корреляции Спирмена равен единице.

Действительно, подставив d=x.-y= 0 в (****), получим

Свойство 2. Если между качественными признаками А и В имеется «противоположная зависимость» в том смысле, что рангу х, = 1 соответствует ранг у, = и; рангу х2 соответствует ранг у2 = п- 1;рангу хп = п соответствует ранг уп - 1, то выборочный коэффициент ранговой корреляции Спирмена равен минус единице.

Действительно,

Следовательно,

Подставив ^,df = (пЛ -п)/3 в (****), окончательно получим

Свойство 3. Если между качественными признаками А и В нет ни «полной прямой», ни «противоположной» зависимостей, то коэффициент р|( заключен между -1 и +1, причем чем ближе к нулю его абсолютная величина, тем зависимость меньше.

Пример 1. Найти выборочный коэффициент ранговой корреляции Спирмена по данным ранга объектов выборки объема п = 10:

х 123456789 10 у' 6 4 8 1 2 5 10 3 7 9

Решение. Найдем разности рангов d = х - у-5, -2, -5,3, 3,1, -3,5,

2,1.

Вычислим сумму квадратов разностей рангов:

Найдем искомый коэффициент ранговой корреляции, учитывая, что л?= 10:

Замечание. Если выборка содержит объекты с одинаковым к а ч е с т в о м, то каждому из них приписывается ранг, равный среднему арифметическому порядковых номеров объектов. Например, если объекты одинакового качества по признаку А имеют порядковые номера 5 и 6, то их ранги соответственно равны: х5 = (5 + 6)/2 = 5,5; = 5,5.

Приведем правило, позволяющее установить значимость или нс- значимость ранговой корреляции связи для выборок объема п > 9. Если п < 9, то пользуются таблицами (см., например, табл. 6.10а, 6.1 Об в книге: Большее Л . Н., С м и р н о в Н . В. Таблицы математической статистики. М.: «Наука», 1965).

Правило. Для того чтобы при уровне значимости а проверить нулевую гипотезу о равенстве нулю генерального коэффициента ранговой корреляции рг Спирмена при конкурирующей гипотезе Нх: рг Ф 0, надо вычислить критическую точку:

где п — объем выборки, р|( — выборочный коэффициент ранговой корреляции Спирмена, t (а; к) — критическая точка двусторонней критической области, которую находят по таблице критических точек распределения Стыодента, по уровню значимости а и числу степеней свободы k = n- 2.

Если | р|( | < Т — нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима.

Если | р„ | > Т — нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.

Пример 2. При уровне значимости 0,05 проверить, является ли ранговая корреляционная связь, вычисленная в примере 1, значимой?

Решение. Найдем критическую точку двусторонней критической области распределения Стыодента по уровню значимости а=0,05 и числу степеней свободы ?=«-2=10-2=8 (см. приложение 6): ?.(0,05; 8) = 2,31.

Найдем критическую точку:

Подставив ? = 2,31, п = 10, р =0,24, получим Г =0,79.

Итак, Г =0,79,р =0,24.

Так как рв< Т — нет основании отвергнуть нулевую гипотезу; ранговая корреляционная связь между признаками незначимая.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >