Понятие о многомерном корреляционном анализе. Множественный и частный коэффициенты корреляции

Экономические явления чаще всего адекватно описываются многофакторными моделями. Поэтому возникает необходимость обобщить рассмотренную выше двумерную корреляционную модель на случай нескольких переменных.

Пусть имеется совокупность случайных переменных Х{, Х2,..., Хр..., XJt ..., Хр, имеющих совместное нормальное распределение. В этом случае матрицу

составленную из парных коэффициентов корреляции рр (i,j = 1, 2, ...,р), определяемых по формуле (9.2), будем называть корреляционной. Основная задача многомерного корреляционного анализа состоит в оценке корреляционной матрицы Qp по выборке. Эта задача решается определением матрицы выборочных коэффициентов корреляции:

где rp(i,j =1,2, ..., р) определяется по формуле (12.30) или се модификациям.

В многомерном корреляционном анализе рассматривают две типовые задачи:

  • а) определение тесноты связи одной из переменных с совокупностью остальных (р - 1) переменных, включенных в анализ;
  • б) определение тесноты связи между переменными при фиксировании или исключении влияния остальных q переменных, где q<{p-‘i).

Эти задачи решаются с помощью множественных и частных коэффициентов корреляции.

Множественный коэффициент корреляции. Теснота линейной взаимосвязи одной переменной X,• с совокупностью других - 1) переменных Xj, рассматриваемой в целом, измеряется с помощью множественного (или совокупного) коэффициента корреляции р,12 „, который является обобщением парного коэффициента корреляции р(/. Выборочный множественный, или совокупный, коэффициент корреляции R, 12 р, являющийся оценкой pj.,2...п> может быть вычислен по формуле

где | q | — определитель матрицы qp; qu — алгебраическое дополнение элемента ги той же матрицы (равного 1).

В частности, в случае трех переменных (р = 3) из формулы (12.67) следует, что

Множественный коэффициент корреляции заключен в пределах 0

С помощью множественного коэффициента корреляции (но мере приближения R к 1) делается вывод о тесноте взаимосвязи, но не о ее направлении. Величина R2, называемая выборочным множественным (или совокупным) коэффициентом детерминации, показывает, какую долю вариации исследуемой переменной объясняет вариация остальных переменных.

Можно показать, что множественный коэффициент корреляции значимо отличается от нуля, если значение статистики

где Fak L — табличное значение /'-критерия на уровне значимости а при числе степеней свободы kx=p - k2 = n - р.

Частный коэффициент корреляции. Если переменные коррелируют друг с другом, то на величине парного коэффициента корреляции частично сказывается влияние других переменных. В связи с этим часто возникает необходимость исследовать мастную корреляцию между переменными при исключении (элиминировании) влияния одной или нескольких других переменных.

Выборочным мастным коэффициентом корреляции между переменными Xi и Xj при фиксированных значениях остальных - 2) переменных называется выражение

где q4 и qtj — алгебраические дополнения элементов Гц и r}j матрицы qp. В частности, в случае трех переменных (р = 3) из формулы (12.70) следует, что

Частный коэффициент корреляции ri} 12 р, как и парный коэффициент корреляции гу может принимать значения от -1 до 1. Кроме того, rV) 12 вычисленный на основе выборки объема /?, имеет такое же распределение, что и Гу вычисленный по (п - р + 2) наблюдениям. Поэтому значимость частного коэффициента корреляции г^л2 р оценивают так же, как и коэффициента корреляции г (см. параграф 12.5), но при этом полагают п' = п-р-г 2.

t> Пример 12.9. Для исследования зависимости между производительностью труда (Xj), возрастом (Х2) и производственным стажем (Х3) была произведена выборка из 100 рабочих одной и той же специальности. Вычисленные парные коэффициенты корреляции оказались значимыми и составили: г12 = 0,20; г13 = 0,41; г23 = 0,82. Вычислить множественный коэффициент корреляции R 23> частные коэффициенты корреляции и оценить их значимость на уровне а = 0,05.

Решение. По формуле (12.68) вычислим множественный коэффициент корреляции:

т.е. между производительностью труда, с одной стороны, и возрастом и производственным стажем рабочих — с другой, существует заметная связь. Множественный коэффициент детерминации /^23=0,225 показывает, что вариация производительности труда рабочих на 22,5% объясняется вариацией их возраста и производственного стажа.

Для оценки значимости 23 по формуле (12.69) вычислим

и по таблицам F-распределеиия найдем ^о,05;2;97 = 3,09. Так как F > F005.2$i> то 23 значимо отличается от нуля.

По формуле (12.71) вычислим частные коэффициенты корреляции:

и аналогично г132 = 0,44; г231 = 0,83.

Оценим значимость г123. Полагаем условно п' = п-р + 2=100- 3 + 2 = = 99. Статистика критерия по формуле (12.43):

По таблице ^-распределения Стьюдснта находим ^о,05;97 = 1*99- Так как | ? | > ?q,95;97 > то частный коэффициент корреляции г123 значим. Тем более будут значимы большие коэффициенты г13 2 и г231 (в этом можно убедиться таким же образом). ?

Сравнивая частные коэффициенты корреляции rijk с соответствующими парными коэффициентами г», видим, что за счет «очищения связи» наибольшему изменению подвергся коэффициент корреляции между производительностью труда {) и возрастом (Х2) рабочих (изменилась не только его величина, но даже и знак: г12= 0,20; г123= -0,26, причем оба эти коэффициента значимы).

Итак, между производительностью труда (Xj) и возрастом 2) рабочих существует прямая корреляционная связь (г12 = 0,20). Если же устранить (элиминировать) влияние переменной «производственный стаж» 3), то в чистом виде производительность труда (Xt) находится в обратной но направлению (и опять же слабой по тесноте) связи с возрастом рабочих 2) (7"i2.3 = -0,26). Это вполне объяснимо, если рассматривать возраст только как показатель работоспособности организма на определенном этапе его жизнедеятельности. Подобным образом могут быть интерпретированы и другие частные коэффициенты корреляции.

Заканчивая краткое изложение корреляционного анализа количественных признаков, остановимся на двух моментах.

1. Задача научного исследования состоит в отыскании причинных зависимостей. Только знание истинных причин явлений позволяет правильно истолковывать наблюдаемые закономерности. Однако корреляция как формальное статистическое понятие сама по себе не вскрывает причинного характера связи. С помощью корреляционного анализа нельзя указать, какую переменную принимать в качестве причины, а какую — в качестве следствия. Например, рассматривая корреляционную связь между суточной выработкой продукции и величиной основных производственных фондов (см. пример 12.1), изменение последней можно считать одной из причин изменения суточной выработки. Но, с другой стороны, необходимость повышения суточной выработки продукции может повлечь за собой увеличение размера основных производственных фондов. Между урожайностью сельскохозяйственных культур и погодными условиями (температурой, количеством осадков и т.п.) существует корреляционная связь. Но здесь не возникает сомнений, какая переменная является следствием, а какая — причиной.

Иногда при наличии корреляционной связи ни одна из переменных не может рассматриваться причиной другой (например, зависимость между весом и ростом человека). Наконец, возможна ложная корреляция (нонсенс- корреляция), т.е. чисто формальная связь между переменными, не находящая никакого объяснения и основанная лишь на количественном соотношении между ними (таких примеров в статистической литературе приводится немало). Поэтому при логических переходах от корреляционной связи между переменными к их причинной взаимообусловленности необходимо глубокое проникновение в сущность анализируемых явлений.

2. Не существует общеупотребительного критерия проверки определяющего требования корреляционного анализа — нормальности многомерного распределения переменных. Учитывая свойства теоретической модели, обычно полагают, что отнесение к совместному нормальному закону возможно, если частные одномерные распределения переменных не противоречат нормальным распределениям (в этом можно убедиться, например, с помощью критериев согласия); если совокупность точек корреляционного поля частных двумерных распределений имеет вид более или менее вытянутого «облака» с выраженной линейной тенденцией.

Для проверки линейности связи пары признаков можно использовать расхождение между квадратами эмпирического корреляционного отношения г|2 и коэффициента корреляции г2, учитывая, что статистика

(п — число наблюдений, т — число группировочных интервалов) имеет F-распределение с kx = т - 2 w k2 = п - т степенями свободы.

О Пример 12.10. По данным табл. 12.1 на уровне значимости 0,05 проверить гипотезу о линейности корреляционной зависимости между переменными У и X.

Решение. Имеем п = 50, т = 5. В примере 12.3 было получено г = 0,740, а в примере 12.7 — г| = 0,754. По формуле (12.72)

Так как F < F0,o5;3;45 = 2,82 (см. табл. VI приложений), то гипотеза о линейности корреляционной зависимости между У и X не отвергается. ?

Многомерный корреляционный анализ позволяет с помощью корреляционной матрицы (12.66) получить оценку модельного уравнения регрессии — линейного уравнения множественной регрессии. Однако это проще сделать с помощью регрессионного анализа (см. гл. 13).

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >