Корреляционное отношение и индекс корреляции

Введенный выше коэффициент корреляции, как уже отмечено, является полноценным показателем тесноты связи лишь в случае линейной зависимости между переменными. Однако часто возникает необходимость в достоверном показателе интенсивности связи при л ю б о й ф о р м е зависимости.

Для получения такого показателя вспомним правило сложения дисперсий (8.12):'

где s'y — общая дисперсия переменной

s'ij — средняя групповых дисперсий s|y, или остаточная дисперсия -

Ъ}у — межгрупповая дисперсия

Остаточной дисперсией измеряют ту часть колеблемости Y, которая возникает из-за изменчивости неучтенных факторов, не зависящих от X. Межгрупповая дисперсия выражает ту часть вариации Y, которая обусловлена изменчивостью X. Величина

получила название эмпирического корреляционного отношения Y по X. Чем теснее связь, тем большее влияние на вариацию переменной Y оказывает изменчивость X по сравнению с неучтенными факторами, тем выше rj . Величина г2х , называемая эмпирическим коэффициентом детерминации, показывает, какая часть общей вариации Y обусловлена вариацией X. Аналогично вводится эмпирическое корреляционное отношение X по Y:

Отметим основные свойства корреляционных отношений[1] (при достаточно большом объеме выборки п).

  • 1. Корреляционное отношение есть неотрицательная величина, не превосходящая единицу. О < r| < 1.
  • 2. Если г| = 0, то корреляционная связь отсутствует.
  • 3. Если Г| = 1 у то между переменными существует функциональная зависимость.
  • 4. r|//v Ф Г| ху , т.е. в отличие от коэффициента корреляции г (для которого гуХ ~ гху = г ) при вычислении корреляционного отношения существенно, какую переменную считать независимой, а какую — зависимой.

Эмпирическое корреляционное отношение r|,yv является показателем рассеяния точек корреляционного поля относительно эмпирической линии регрессии, выражаемой ломаной, соединяющей значения ух Однако в связи с тем, что закономерное изменение ух нарушается случайными зигзагами ломаной, возникающими вследствие остаточного действия неучтенных факторов, гух преувеличивает тесноту связи. Поэтому наряду с ч х рассматривается показатель тесноты связи Ryv характеризующий рассеяние точек корреляционного поля относительно линии регрессии ух (12.3). Показатель R х получил название теоретического корреляционного отношения или индекса корреляции У по X

где дисперсии 82 и s'2 определяются но формулам (12.54)—(12.56), в которых групповые средние ух заменены условными средними ух., вычисленными по уравнению регрессии (12.16).

Подобно Ryx вводится и индекс корреляции X по У:

Достоинством рассмотренных показателей г| и R является то, что они могут быть вычислены при любой форме связи между переменными. Хотя г| и завышает тесноту связи по сравнению с Ry по для его вычисления не нужно знать уравнение регрессии. Корреляционные отношения г| и R связаны с коэффициентом корреляции г следующим образом:

Покажем, что в случае линейной модели (12.3), т.е. зависимости ух-у - Ьух-х), индекс корреляции Ryxравен коэффициенту корреляции г {по абсолютной величине): /?^v=|/j (или R = |r| ).

? Полагаем для простоты = 1 (/ = 1, 2,..., /).

По формуле (12.60)

(так как из уравнения регрессии ух. ~у = byx(xi -х) ).

Теперь, учитывая формулы дисперсии, коэффициентов регрессии (12.17) и корреляции (12.30), получим:

Коэффициент детерминации R2, равный квадрату индекса корреляции (для парной линейной модели — г2), показывает долю общей вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющей переменной.

Чем ближе R2 к единице, тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии. Если R2 = 1, то эмпирические точки (х, у) лежат на линии регрессии (см. рис. 12.4) и между переменными Y аХ существует линейная функциональная зависимость. Если R2 = 0, то вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных, и линия регрессии параллельна оси абсцисс (см. рис. 12.5).

Расхождение между Г|- и /2 (или г2) может быть использовано для проверки линейности корреляционной зависимости (см. ниже пример 12.10).

Проверка значимости корреляционного отношения ц основана на том, что статистика

(где т — число интервалов по группировочному признаку) имеет /’-распределение Фишера — Снедекора с Е, = т - 1 и k2-n - т степенями свободы. Поэтому г| значимо отличается от нуля, если F > /ф^, где /ф^ — табличное значение /'-критерия на уровне значимости а при числе степеней свободы kx - т - 1 и k2 - п - т.

Индекс корреляции R двух переменных значим, если значение статистики

больше табличного /ф^^, где kt = 1 и k2 = n - 2.

О Пример 12.8. По данным табл. 12.1 вычислить корреляционное отношение хух и индекс корреляции Ryr и проверить их значимость на уровне а = 0,05.

Решение. Вначале определим Г|,уг. Ранее вычислены: общая средняя у = 16,92, дисперсия s'2 =18,23 (пример 12.2), групповые средние yt (см. табл. 12.1).

Частоты интервалов п, указаны в предпоследней графе той же таблицы. Для удобства расчеты представим в табл. 12.4.

Таблица 12.4

”,

Ух

Уч

Од, ~yfni

22,5

3

10,3

131,5

10,4

127,5

27,5

13

13,3

170,4

13,8

126,5

32,5

21

17,8

16,3

17,2

1,6

37,5

11

20,3

125,7

20,6

149,0

42,5

2

23,0

73,9

23,9

97,4

I

517,8

502,0

Теперь по формуле (12.57) 8jy =517,8/50 = 10,36 и по формуле (12.58)

r=J1-yjo^568 = 0,754. Значение г|гуг близко к величине г - 0,740 y 18,23

(полученной ранее в примере 12.3). Поэтому оправдано сделанное выше на основании графического изображения эмпирической линии (ломаной) регрессии предположение о линейной корреляционной зависимости между переменными.

Для расчета RlJX по уравнению регрессии ух = 0,6762х - 4,79 (см. пример 12.1) находим значения ух. , представленные в предпоследней графе табл. 12.4. Затем аналогично S2 =502,0/50 = 10,04 и

Ryx =дГ^оо =V^551 =0,742 . Как и следовало ожидать, Ryx оказался рав-

Y 10, Z<3

ным г (небольшое расхождение объясняется округлением промежуточных результатов при вычислении Ryx). Поэтому в случае линейной связи нет смысла вычислять Ryxf а достаточно ограничиться вычислением г. Величина коэффициента детерминации Ryv =0,551 показывает, что вариация зависимой переменной Y (суточной выработки продукции) на 55,1% объясняется вариацией независимой переменной X (величиной основных производственных фондов).

Для проверки значимости гух, учитывая, что количество интервалов по группировочному признаку т = 5, по формуле (12.63) найдем

Табличное значение F005.A.A5 = 2,57. Так как F > F005.4.A5y то гух значимо отличается от нуля. Аналогично проверяется значимость R .. По формуле (12.64)

0,7422(50-2)

F = —--—-г-^- = 58,8. Так как F > ^o,05;i;48 = 4,04, то индекс корреляции

(1 0,742 )

Ryx значим. ?

  • [1] Эти свойства справедливы как для эмпирических корреляционных отношений Г|, таки для теоретических — R (см. ниже).
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >