Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

ФЗ.2.2. Коэффициент корреляции и его свойства

Смысл коэффициентов корреляции и детерминации при аппроксимационном подходе к анализу данных отражен в формулах (3.3)—(3.7). Ниже приведены некоторые его свойства.

Свойство 1. Коэффициент детерминации р2 характеризует долю дисперсии признака у, учтенную в построенной линейной регрессии у по х (следует из уравнения (3.7)).

Свойство 2. Коэффициент корреляции р изменяется в интервале от -1 до 1. (Это следует из того, что р2 лежит в интервале от 0 до 1, так как значение Lm в уравнении (3.7) не может быть отрицательным, потому что оно выражается через квадраты в уравнении (3.3).) Чем ближе р2 к 1 или к -1, тем меньше остатки в линейном регрессионном уравнении. Например, величина р = 0,9 означает, что необъя с пенная часть дисперсии у Lm равна 1 - р2 = 1 - 0,81 = 19% от исходной величины.

Свойство 3. Наклон а пропорционален р согласно уравнению (3.4); а положительно или отрицательно в зависимости от знака р. Если р = 0, наклон нулевой: в этом случае у и х называются некоррелированными. («Некоррелированы» — вовсе нс значит «не связаны»!)

Свойство 4. Коэффициент корреляции р не изменяется при сдвиге и изменении масштаба х и (или) у, о чем свидетельствует уравнение (3.5). Выражение (3.5) становится гораздо проще, если признаки х и у стандартизуются с помощью

преобразования, называемого в статистике z-скоринг. Преобразование z-скоринг данного признака заключается в следующем: его среднее значение т вычитается из всех его значений, а результат делится на стандартное отклонение с:

С использованием стандартизации z-скоринг формула (3.5) может быть переписана в виде

где у'> означает скалярное произведение стандартизованных векторов х/ = (x'i) и у' = (y'j), <х', у'> = Z, xJi у.

Следующее свойство связано с одним из фундаментальных открытий К. Пирсона — интерпретацией коэффициента корреляции в терминах двумерного Гауссова распределения. Общая формула для функции плотности этого распределения с учетом предварительной стандартизации по методу z-скоринг имеет следующий вид:

где и = (х, у) двумерный вектор рассматриваемых переменных х и у> a Z — так называемая матрица корреляции

В формуле (3.8) р — параметр с четким геометрическим смыслом. Рассмотрим множество точек и = (х, у) на плоскости (х, у) таких, что функция f(uy Z) (3.8), - некоторая константа. Формула (3.8) гарантирует, что величина и7Х ~1и тоже будет постоянной, при любом и. Это означает, что множество точек и = (х, у) постоянной плотности удовлетворяет уравнению х2 - 2рху + у2 = const. Это уравнение задаст хорошо известную квадратичную фигуру — эллипс. При р = 0 уравнение превращается в уравнение окружности х2 + у2 = const, и чем больше отличие р от О, тем «уже» становится эллипс. При р = 1 эллипс превращается в прямую линию у + Ь, потому что левая часть уравнения становится полным квадратом, в этом случае х2 - 2ху + у2 = const, т.е. (у ± х)2 = const. Размер эллипса пропорционален константе const: чем она больше, гем больше размер.

Свойство 5. Коэффициент корреляции (3.5) — оценка параметра р в уравнении (3.8), построенная по выборке из Гауссова распределения, при стандартном предположении случайности и независимости точек (г/,, х,), попавших в выборку.

Этот замечательный факт — свойство 5 — лежит в основе неправильного мнения, распространенного среди социологов и экономистов: использование коэффициента корреляции корректно только при том условии, что выборка взята из двумерного Гауссова распределения. Подобная логика носит несколько ограниченный характер. Она применима, если речь идет об оценке функции плотности двумерного распределения. Нас же интересует совсем другой вопрос — качество линейного представления одной переменной через другую. Коэффициент корреляции имеет абсолютно другой смысл в контексте аппроксимации, не имеющий ничего общего с Гауссовым распределением, как это отражено выше в свойствах 1—4 и уравнениях (3.4)—(3.7). В этом плане никаких ограничений на использование коэффициента корреляции нет.

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы