Основные положения корреляционного анализа. Двумерная модель

Корреляционный анализ {корреляционная модель)метод, применяемый тогда, когда данные наблюдений или эксперимента можно считать случайными и выбранными из совокупности, распределенной по многомерному нормальному закону.

Основная задача корреляционного анализа, как отмечено выше, состоит в выявлении связи между случайными переменными путем точечной и интервальной оценок различных (парных, множественных, частных) коэффициентов корреляции. Дополнительная задача корреляционного анализа (являющаяся основной в регрессионном анализе) заключается в оценке уравнений регрессии одной переменной по другой.

Рассмотрим простейшую модель корреляционного анализа — двумерную. Плотность совместного нормального распределения двух переменных X и У имеет вид (см. параграф 5.7):

. Г,

т ( 1 х-ах п„х-аг У~ау , У~ау

1 2(1 — Р2) ах ) gx Gy [ Gy )

av ay математические ожидания переменных X и У; oJ,aJ — дисперсии переменных X и У; р — коэффициент корреляции между переменными X и У, определяемый через корреляционный момент (ковариацию) К по формуле (5.38):

или с учетом свойства (5.40)

Величина р характеризует тесноту связи между случайными переменными X и У. Указанные пять параметров ах, ау, а2, а2 , р дают исчерпывающие сведения о корреляционной зависимости между переменными.

В параграфе 5.7 показано, что при совместном нормальном законе распределения случайных величин X и У (12.38) выражения для условных математических ожиданий, т.е. модельные уравнения регрессии (12.1) и (12.2), выражаются линейными функциями:

Из свойств коэффициента корреляции (параграф 5.6) следует, что р является показателем тесноты связи лишь в случае линейной зависимости

{линейной регрессии) между двумя переменными, получаемой, в частности, в соответствии с равенствами (12.41), (12.42) при их совместном нормальном распределении.

Из параграфа 5.6 также следует (см. формулы (5.50), (5.52)), что условные дисперсии равны:

т.е. степень рассеяния значений Y (или X) относительно линии регрессии Y по X (или X по Y) определяется двумя факторами: дисперсией а2 (а^.) переменной Y (X) и коэффициентом корреляции р и не зависит от значений независимой переменной х (у). По мере приближения |р| к единице условная дисперсия ст^.(у) —>0, и значения переменных все менее

рассеяны относительно соответствующих линий регрессии, т.е. очевиден смысл коэффициента корреляции как показателя тесноты линейной корреляционной зависимости.

Генеральная совокупность в определенном смысле аналогична понятию случайной величины и ее закону распределения (см. параграф 9.1), поэтому для вышеназванных параметров используется и другая терминология: ах, ау (или *0, у{)) — генеральные средние-, о2, о2 — генеральные дисперсии; Кху и р — генеральные ковариация и коэффициент корреляции.

Для оценки генерального коэффициента корреляции р и модельных уравнений регрессии по выборке в формулах (12.40)—(12.42) необходимо заменить параметры ах, ау, о2, о2, Кху их состоятельными выборочными оценками — соответственно х, у (12.12), s2 (12.18), s2 (12.22), р (12.19). В этом случае получим знакомые нам формулы для определения выборочного коэффициента корреляции г (12.30) и выборочных уравнений регрессии (12.16), (12.20). Выше (параграфы 12.2 и 12.3) те же формулы получены иначе — на основе применения метода наименьших квадратов. Совпадение результатов объясняется некоторыми ценными свойствами оценок метода наименьших квадратов.

В параграфе 12.3 мы ввели выборочный коэффициент корреляции г и рассмотрели его свойства, исходя из оценки близости точек корреляционного поля к прямой регрессии без учета предпосылок корреляционного анализа. Однако если эти предпосылки нарушаются (совместный закон распределения переменных не является нормальным, одна из исследуемых переменных не является случайной и т.п.), то г не следует рассматривать как строгую меру взаимосвязи переменных.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >