Измерение тесноты парной связи между количественными переменными. Ковариация. Коэффициент корреляции

Рассмотрим важный для практики случай, когда ищется линейная связь междуХ и У:

Мерой силы линейной связи признаков X и У является коэффициент корреляции

Величина М[(х - цд)(у - Цу)] = cov(X, У) называется ковариацией случайных величин X и У, или корреляционным моментом. Для независимых случайных величин ковариация равна нулю. Однако равенство cov(X, У) = 0 не означает в общем случае независимости X и У, т.е. является необходимым, но не достаточным условием для независимости признаков.

Величина ковариации зависит от единиц измерения (изменяется, например, при переходе от метров к сантиметрам). Поэтому на практике чаще используют коэффициент корреляции, являющийся безразмерной величиной.

При вычислении выборочного (эмпирического) коэффициента корреляции г теоретические величины заменяются их оценками:

При вычислении вручную пользуются модифицированной формулой

Рассмотрим свойства коэффициента корреляции.

  • 1. Модуль |г| не меняется от прибавления кХ иУ постоянных слагаемых и от умножения ХиУна положительные числа, т.е. при линейных преобразованиях случайных переменных: г(Ь0 + + Ь}х; Ьо + Ъ[у) = гху. Таким образом, коэффициент корреляции не зависит от выбора начала отсчета и единиц измерения.
  • 2. Если одну из случайных величин умножить на -1, то коэффициент корреляции поменяет знак.
  • 3. Коэффициент корреляции принимает значения в интервале -1 < г < 1.

Коэффициент корреляции может быть равен -1 или 1, только если X и У линейно зависят друг от друга, т.е. если существует функциональная связь у = Ь0 + Ьгх. Величина |г|, близкая к единице, указывает, что зависимость случайных величин почти линейная. Значения |г|, близкие к нулю, означают, что связь между случайными величинами либо слаба, либо не носит линейного характера, например является параболической (рис. 9.6). Таким образом, коэффициент корреляции характеризует степень приближения зависимости между случайными величинами к линейной функциональной зависимости.

Если распределение величин X и Y близко к нормальному, то корреляция между ними является линейной и выборочный коэффициент корреляции г является надежной оценкой генерального (теоретического) коэффициента р.

Если г > 0, то связь между переменными положительная (прямая), величины X и Y с точностью до случайных погрешностей одновременно возрастают или убывают. При г < 0 связь отрицательная (обратная), с возрастанием одной величины другая имеет тенденцию к убыванию.

Коэффициент корреляции часто используется при связях, отличающихся от линейных. Если | г | = 0,8 4- 0,9, то независимо от вида связи можно утверждать, что она достаточно тесна для того, чтобы исследовать ее форму (рис. 9.7).

Параболическая связь

Рис. 9.6. Параболическая связь

Связь с периодической составляющей

Рис. 9.7. Связь с периодической составляющей

Для расчета коэффициента корреляции по выборочным данным вручную может использоваться корреляционная таблица или таблица сопряженности и соответствующая модифицированная формула [15].

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >