КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Диалектический подход к изучению природы и общества требует рассмотрения явлений в их взаимосвязи и непрестанном изменении.

Понятия корреляции и регрессии появились в середине XIX в. благодаря работам английских статистиков Ф. Гальтона и К. Пирсона. Первый термин произошел от латинского «correlatio» — соотношение, взаимосвязь. Второй термин (от лат. «regressio» — движение назад) введен Ф. Гальтоном, который, изучая зависимость между ростом родителей и их детей, обнаружил явление «регрессии к среднему» — у детей, родившихся у очень высоких родителей, рост имел тенденцию быть ближе к средней величине.

Функциональная, статистическая и корреляционная зависимости

В естественных науках часто речь идет о функциональной зависимости (связи), когда каждому значению одной переменной соответствует вполне определенное значение другой. Функциональная зависимость может иметь место как между детерминированными (неслучайными) переменными (например, зависимость скорости падения в вакууме от времени и т.п.), так и между случайными величинами (например, зависимость стоимости проданных изделий от их числа и т.п.).

В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Иначе говоря, каждому значению одной переменной соответствует определенное {условное) распределение другой переменной. Такая зависимость (связь) получила название статистической (или стохастической, вероятностной). (О ней уже шла речь в параграфе 5.5.)

Возникновение понятия статистической связи обусловливается тем, что зависимая переменная подвержена влиянию ряда неконтролируемых или неучтенных факторов, а также тем, что измерение значений переменных неизбежно сопровождается некоторыми случайными ошибками. Примерами статистической связи является зависимость урожайности от количества внесенных удобрений, производительности труда на предприятии от его энерговооруженности, прибыли фирмы от спроса на ее продукцию

и т.п.

В силу неоднозначности статистической зависимости между У и X для исследователя, в частности, представляет интерес усредненная по х схема зависимости, т.е. закономерность в изменении среднего значения — условного математического ожидания[1] MX(Y) (математического ожидания случайной переменной У, найденного при условии, что переменная X приняла значение х) в зависимости от х.

Определение. Статистическая зависимость между двумя переменными, при которой каждому значению одной переменной соответствует определенное среднее значение, т.е. условное математическое ожидание другой, называется корреляционной. Иначе, корреляционной зависимостью между двумя переменными величинами называется функциональная зависимость между значениями одной из них и условным математическим ожиданием другой.

Корреляционная зависимость может быть представлена в виде

Предполагается, что ф(х)^ const и |/(г/) * const, т.е. если при изменении х или у условные математические ожидания МГ(У) и Му(Х) не изменяются, то говорят, что корреляционная зависимость между переменными X и Y отсутствует.

Сравнивая различные виды зависимости между X и У, можно сказать, что с изменением значений переменной X при функциональной зависимости однозначно изменяется определенное значение переменной У, при корреляционной — определенное среднее значение (условное математическое ожидание) У, а при статистической — определенное (условное) распределение переменной У (рис. 12.1).

Таким образом, из рассмотренных зависимостей наиболее общей выступает статистическая зависимость[2]. Каждая корреляционная зависимость является статистической, но не каждая статистическая зависимость является корреляционной. Функциональная зависимость представляет частный случай корреляционной (об этом речь еще пойдет ниже, в параграфе 12.3).

Рис. 12.1

Уравнения (12.1) и (12.2) называются модельными уравнениями регрессии (или просто уравнениями регрессии) соответственно[3] У по X и X по Y, функции ф(.г) и ф(г/) — модельными функциями регрессии (или функциями регрессии), а их графики — модельными линиями регрессии (или линиями регрессии).

Для отыскания модельных уравнений регрессии, вообще говоря, необходимо знать закон распределения двумерной случайной величины (X, У). На практике исследователь, как правило, располагает лишь выборкой пар значений (х,, г/,) ограниченного объема. В этом случае речь может идти об оценке (приближенном выражении) по выборке функции регрессии. Такой наилучшей (в смысле метода наименьших квадратов) оценкой является выборочная линия {кривая) регрессии Y по X

где у хусловная {групповая) средняя переменной У при фиксированном значении переменной Х=х; Ь0, Ь{.....Ьр параметры кривой.

Аналогично определяется выборочная линия {кривая) регрессии X по У:

где хуусловная {групповая) средняя переменной X при фиксированном значении переменной Y=y с0, с1;..., ср — параметры кривой.

Уравнения (12.3), (12.4) называют также выборочными уравнениями регрессии соответственно[4] У по X и X по У.

При правильно определенных аппроксимирующих функциях ф(х, Ь0, Ьи..., Ьр} и ф(г/, с0, сх,..., cp} с увеличением объема выборки {п —» —» оо) они будут сходиться по вероятности соответственно к функциям регрессии ф(х) и (/(/у).

Статистические связи между переменными можно изучать методами корреляционного и регрессионного анализа. Основной задачей регрессионного анализа является установление формы и изучение зависимости между переменными. Основной задачей корреляционного анализа — выявление связи между случайными переменными и оценка ее тесноты.

Вначале (параграфы 12.2, 12.3) познакомимся с основными понятиями корреляционного и регрессионного анализа, а затем (параграфы 12.4—12.7, 13.1-13.8) перейдем к более детальному изучению этих методов.

  • [1] Для условного математического ожидания в литературе используется также обозначение M(YX = x).
  • [2] Хотя статистическая зависимость и является наиболее общей из рассмотренных, онане отражает любую возможную зависимость между переменными в условиях неопределенности. Например, можно предполагать, что существует некоторая зависимость между числом(продолжительностью) военных конфликтов и числом изобретений за определенный периодвремени. Эта зависимость хотя и сводится к зависимости между событиями с неопределенным исходом (могут произойти или нс произойти), но нс является статистической, ибо каждому значению одной переменной нельзя поставить в соответствие распределение другой,так как к таким единичным и неповторяемым в одинаковых условиях событиям, какимиявляются соответственно военные конфликты и изобретения, неприменимо само понятиевероятности (см. параграф 1.3).
  • [3] Или У на X и Хна У.
  • [4] В дальнейшем для краткости там, где это очевидно по смыслу, мы часто и выборочныеуравнения (линии) регрессии будем называть просто уравнениями (линиями) регрессии.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >