Коэффициент корреляции

Перейдем к о ц е н к е тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида (12.16).

На первый взгляд подходящим измерителем тесноты связи Yот X является коэффициент регрессии Ьух, ибо, как уже отмечено, он показывает, на сколько единиц в среднем изменяется У, когда X увеличивается на одну единицу. Однако Ьух зависит от единиц измерения переменных. Например, в полученной ранее зависимости он увеличится в 1000 раз, если величину основных производственных фондов X выразить не в млн руб., а в тыс. руб.

Очевидно, что для «исправления» Ьух как показателя тесноты связи нужна такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Статистика знает такую систему единиц. Эта система использует в качестве единицы измерения переменной ее среднее квадратическое отклонение s.

Представим уравнение (12.16) в эквивалентном виде:

В этой системе величина

показывает, на сколько величии s/y изменится в среднем Y, когда X увеличится на одно sx

Величина г является показателем тесноты линейной связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).

На рис. 12.3 приведены две корреляционные зависимости переменной Y по X. Очевидно, что в случае а) зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае б), так как точки корреляционного поля а) дальше отстоят от линии регрессии, чем точки поля б).

Рис. 12.3

Нетрудно видеть, что /'совпадает по знаку с Ьух (а значит, и с Ьху). Если г > 0 ух> 0, Ьху> 0), то корреляционная связь между переменными называется прямой, если г< 0 ух< 0, Ъху< 0) — обратной. При прямой (обратной) связи увеличение одной из переменных ведет к увеличению (уменьшению) условной (групповой) средней другой.

Учитывая равенство (12.17), формулу для /'представим в виде

Отсюда видно, что формула для г симметрична относительно двух переменных, т.е. переменные X и Y можно менять местами. Тогда аналогично формуле (12.29) можно записать:

Найдя произведение обеих частей равенств (12.29) и (12.31), получим

или

т.е. коэффициент корреляции г переменных X и Y есть средняя геометрическая коэффициентов регрессии, имеющая их знак.

О Пример 12.3. Вычислить коэффициент корреляции между величиной основных производственных фондов X и суточной выработкой продукции У (по данным табл. 12.1).

Решение. Выше (см. примеры 12.1, 12.2) получили Ьух = 0,6762 и Ьху =

= 0,8099. По формуле (12.33) г = +^0,6762-0,8099 = 0,740 (берем радикал со знаком «+», так как коэффициенты Ьух и Ьху положительны). Итак, связь между рассматриваемыми переменными прямая и достаточно тесная (ибо г близок к I)1. ?

t> Пример 12.4. При исследовании корреляционной зависимости между объемом валовой продукции У (млн руб.) и среднесуточной численностью работающих X (тыс. чел.) для ряда предприятий отрасли получено следующее уравнение регрессии X по У: ху = 0,2у - 2,5. Коэффициент корреляции между этими признаками оказался равным 0,8, а средний объем валовой продукции предприятий составил 40 млн руб. Найти: а) среднее значение среднесуточной численности работающих на предприятиях; б) уравнение регрессии У по X; в) средний объем валовой продукции на предприятиях со среднесуточной численностью работающих 4 тыс. чел.

Решение, а) Обе линии регрессии У по X и X по У пересекаются в точке (х,у), поэтому х найдем по заданному уравнению регрессии при у = у = 40, т.е. х = 0,2 • 40 - 2,5 = 5,5 (тыс. чел.).

б) Учитывая соотношение (12.32), вычислим коэффициент регрессии Ь’

г2 о,82

b --— = —1— = 3,2. Теперь по формуле (12.16) получим уравнение регрес-

Ьху 0,2

сии У по X: ух - 40 = 3,2(х - 5,5) или ух = 3,2г + 22,4.

в) ух= 4 найдем по полученному уравнению регрессии У по X: Ух=4 - 3,2 • 4 + 22,4 = 35,2 (млн руб.). ?

Отметим другие модификации формулы г, полученные из равенства (12.30) с помощью формул (12.12)—(12.14), (12.8)! (12.22):

1 См. ниже свойство 1 коэффициента корреляции.

Для практических расчетов наиболее удобна формула (12.35), так как по ней г находится непосредственно из данных наблюдений и на величине г не скажутся округления данных, связанные с расчетом средних и отклонений от них.

Если данные не сгруппированы в виде корреляционной таблицы и представляют п пар чисел (xt, г/,), то для вычисления коэффициентов регрессии и корреляции в соответствующих формулах следует взять ni} — щ=rij = 1 ,j = i, I т п

aSS заменить на X- i=i;=1 1=1

1> Пример 12.5. Найти коэффициент корреляции между производительностью труда У (тыс. руб.) и энерговооруженностью труда X (кВт) (в расчете на одного работающего) для 14 предприятий региона по следующим данным (табл. 12.3).

Таблица 12.3

Решение. Вычислим необходимые суммы:

X,

2,8

2,2

3,0

3,5

3,2

3,7

4,0

4,8

6,0

5,4

5,2

5,4

6,0

9,0

Mi

6,7

6,9

7,2

7,3

8,4

8,8

9,1

9,8

10,6

10,7

11,1

11,8

12,1

12,4

/ т п

По формуле (12.35), полагая п^= ni = rij = l,j = i и заменяя XX на

получим

что говорит о тесной связи между переменными1. ?

См. ниже свойство 1 коэффициента корреляции.

i'=l j= i=

Отметим основные свойства коэффициента корреляции (при достаточно большом объеме выборки п), аналогичные свойствам коэффициента корреляции двух случайных величин (параграф 5.6).

1. Коэффициент корреляции принимает значения на отрезке [-1; 1], т.е.

В зависимости от того, насколько I г I приближается к 1, различают связь

слабую, умеренную, заметную, достаточно тесную, тесную и весьма тесную,

т.е. чем ближе | г | к 1, тем теснее связь.

2. Если все значения переменных увеличить (.уменьшить) на одно и то же число или в одно и то же число раз, то величина коэффициента корреляции не изменится.

Рис. 12.4

  • 3. При г = ± 1 корреляционная связь представляет линейную функциональную зависимость. При этом линии регрессии Y по X и X по У совпадают и все наблюдаемые значения располагаются на общей прямой.
  • ? Найдем tg(p между двумя прямыми регрессии (рис. 12.4) с угловыми коэффициентами k] = byx и k2 =
  • 1

= -—, используя соответствующую

Ьху

формулу аналитической геометрии:

откуда с учетом соотношений (12.29) и (12.31)

Из полученной формулы видно, что чем теснее связь и чем ближе | г | к 1, тем меньше угол ср между прямыми регрессии (уже образуемые ими «ножницы»), а при г = ±1 tg(p = (p = 0 и линии регрессии сливаются (рис. 12.5, а и б).

Рис. 12.5

  • 4. При г = 0 линейная корреляционная связь отсутствует. При этом групповые средние переменных совпадают с их общими средними, а линии регрессии У по X и X по У параллельны осям координат.
  • ? Если г = 0, то коэффициент Ьух = Ьху = 0 и линии регрессии (12.16) и (12.20) имеют видх= у их,у = % (рис. 12.6). I

Рис. 12.6

Равенство г=0 говорит лишь об отсутствии линейной корреляционной зависимости {некоррелированности переменных), но не вообще об отсутствии корреляционной, а тем более статистической зависимости.

Так, например, для зависимостей, представленных на рис. 12.7, а и б, г=0 и линии регрессии У по X параллельны оси абсцисс. Однако по расположению точек корреляционного поля отчетливо

просматривается взаимосвязь между переменными, отличная от линейной корреляционной. Так, в случае а — это нелинейная корреляционная (почти функциональная) зависимость; в случае б — статистическая зависимость, проявляющаяся в данном случае в том, что с изменением х групповые средние ух не меняются, а меняется лишь рассеяние точек поля относительно линии регрессии.

Рис. 12.7

Выборочный коэффициент корреляции г является оценкой генерального коэффициента корреляции р (о котором речь пойдет дальше), тем более точной, чем больше объем выборки п. И указанные выше свойства, строго говоря, справедливы для р. Однако при достаточно большом п их можно распространить и на г.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >