Модели и методы парной регрессии

Выполнив корреляционный анализ экономических переменных и установив наличие тесной корреляционной связи только между двумя из них, мы оказываемся перед проблемой: какой аналитической зависимостью можно описать эту связь. Нам поможет так называемый регрессионный анализ, предназначенный для исследования и отображения взаимосвязи переменных в форме регрессионной модели. Вначале остановимся на парном регрессионном анализе и соответственно на модели парной линейной регрессии.

В примере 7.12 по данным табл. 7.18 на рис. 7.19 построено корреляционное поле для сбережений St домашних хозяйств и уровня их располагаемого дохода DPIt. В связи с отчетливо выраженной растянутостью корреляционного облака в некотором направлении можно предположить наличие объективной тенденции в виде линейной связи между значениями переменных St и DPIt. Проблема отображения этой связи геометрически означает, что нужно подобрать такую прямую, которая сглаживала бы точки корреляционного поля наилучшим образом. Изображая на диаграмме дополнительно к прямой (а) прямые (б) и (в), получим, по крайней мере, три варианта направления вытянутости корреляционного поля.

Корреляционное поле (диаграмма рассеяния) переменных S и DPI с изображенными на нем прямыми (а), (б) и (в)

Рис. 7.22. Корреляционное поле (диаграмма рассеяния) переменных St и DPIt с изображенными на нем прямыми (а), (б) и (в)

Если исходить из того, что наилучшая сглаживающая прямая существует, но имеющиеся статистические данные вносят неточности в описание, то простейшую модель парной регрессии (теоретическую!) можно представить в виде

где yt — результативный показатель (предиктор); хс — независимая переменная (регрессор); а и (3 — параметры регрессии; е( — случайная составляющая (et ~ N(0,a2) Г

Можно сказать, что зависимая переменная yt состоит из двух составляющих: детерминированной yt=a + pxt (собственно уравнение парной, или простой регрессии) и случайной г(. Представив (7.62) в виде

мы увидим, что случайная компонента et представляет собой ошибку аппроксимации результативного показателя yt детерминированной переменной у( (модельным значением), т.е. является случайным остатком. На рис. 7.22 прямая (а) визуально отличается от остальных тем, все эмпирические точки по отношению к ней расположены ближе, чем по отношению к прямым (б) и (в). И если она действительно наилучшая, тоушеет место соотношение (7.62). Стало быть, уравнение регрессии yt = a + Pxt показывает, как в среднем изменяется результативный показатель, если фактор изменяется так, как он меняется реально.

Замечание. Геометрический смысл параметров регрессии заключается в следующем. Параметр а показывает значение yt при xt=0; параметр Р представляет собой тангенс угла наклона линии регрессии к оси абсцисс. С экономической точки зрения параметр Рл можно трактовать как величину изменения модельного значения ус, если фактор хс изменится на одну единицу.

Обратим внимание на то, что даже при реальном существовании линейной связи, параметры аир такой связи остаются неизвестными, и мы можем судить об истинных значениях лишь приближенно с помощью их оценочных значений а и (3, полученных на основании ограниченной выборки рядов наблюдений.

В качестве критерия выбора лучшей сглаживающей прямой примем, например, следующее требование: сулша квадратов отклонений модельных значений у{ от фактических значений yt должна быть минимальна. Теоретически, в соответствии с соотношением (7.63) этот

П

критерий означает X е? min • Руководствуясь этой идеей, мы прихо-

t=i [1]

дим к способу нахождения оценок параметров выборочного уравнения регрессии по методу наименьших квадратов[2].

Для этого строится функционал

который надо минимизировать. А это известная математическая задача поиска точки минимума функции двух переменных а и р. Вычисляя частные производные функционала Q(a,|3) по переменным а и (3 и приравнивая их нулю, приходим к так называемой системе нормальных уравнений

Раскрывая знаки суммирования, выделим в явном виде коэффициенты при искомых неизвестных а и Р

Система двух линейных уравнений с двумя неизвестными (7.66) может быть легко решена, например, методами подстановки или алгебраического сложения. Так, решения можно представить в следующей наиболее употребительной форме записи (в отклонениях от средних значений):

Замечание 1. Очевидно, полученное решение (7.67) — (7.68) существует только при выполнении услови. , что равносильно

требованию: определитель системы двух линейных уравнений с двумя неизвестными (7.66) не равен нулю

Указанное ограничение является условием идентифицируемости модели (7.62) и означает, что не все значения xt, t=l,nсовпадают между собой.

Замечание 2. Нетрудно убедиться, что правая часть равенства (7.67) представляет собой отношение выборочной ковариации переменных Yt иХ,к выборочной дисперсии переменной Xt [3]

Полученные оценки аир позволяют записать выборочное уравнение регрессии в виде

Пример 7.15. Возвращаясь к примеру 7.13, введем новые обозначения: Yt — величина сбережений домашних хозяйств, Xt — располагаемый доход домашних хозяйств. Построим выборочное уравнение регрессии, оценив его параметры по методу наименьших квадратов. Для этого воспользуемся инструментом Регрессия из надстройки Пакет анализа. В результате получим следующее уравнение

Отобразим на графике результаты нашего моделирования (см. рис. 7.23).

Прежде чем использовать уравнение (7.72) для прогнозирования или иных целей, надо изучить качество полученной модели.

В общем случае оценка качества модели устанавливается проверкой ее адекватности эмпирическим данным и точности. При анализе качества регрессионной модели используется основное положение дисперсионного анализ, в соответствие с которым дисперсия результативного показателя Sj может быть представлена в виде суммы дисперсии модельных значений S? и дисперсии, необъясненных моделью остатков S} : S| =S? +Sf. Разделив обе части этого равенства дисперсию Sj, получим соотношение

Первое слагаемое в соотношении (7.73) показывает, какую долю дисперсии (экономисты любят говорить о «вариации») результативного показателя объясняет (учитывает) уравнение регрессии. Это соотношение известно как коэффициент детерминации R2

Чем ближе R2 к единице, тем выше качество модели.

График регрессии сбережений домашних хозяйств на располагаемый их доход

Рис. 7.23. График регрессии сбережений домашних хозяйств на располагаемый их доход

Замечание. В общем случае коэффициент детерминации равен квадрату выборочного коэффициента множественной корреляции. Отсюда, кстати, следует иной, нежели по формуле (2.11), способ вычисления коэффициента множественной корреляции

Оценка качества регрессионной модели не заканчивается изучением коэффициента детерминации. Необходимо оценить статистическую значимость уравнения регрессии для того чтобы установить, насколько можно доверять нашей модели в плане ее практического применения (в частности, при прогнозировании результативного показателя). С этой целью проверяется нулевая гипотеза о незначимости уравнения регрессии в целом (равенство нулю коэффициента детерминации), при альтернативной гипотезе о значимости регрессии. Соответствующие стандартные рассуждения опираются на сопоставление эмпирического значения F-критерия Фишера F (см. формулы (7.60) и (7.76)), вычисленного для модели парной регрессии, с его табличным значением Fa> v для выбранного нами уровня значимости а с числом степеней свободы va = 1 и v2 = (п-2)1

В качестве меры точности используется выборочное среднеквадратическое отклонение результативного показателя от линии регрессии (иначе говоря, среднеквадратическая (стандартная) ошибка оценки результативного показателя)

Кроме того, достаточно часто используется также средняя относительная ошибка аппроксимации

Для значимого уравнения регрессии представляют интерес интервальные оценки точечных оценок аир параметров регрессионной модели. Для этого, опираясь на понятие среднеквадратической ошибки оценки результативного показателя (7.77), вначале рассчитывают стандартные ошибки точечных оценок а и Р

1 Возможно также сопоставление эмпирического уровня значимости а , соответствующего F, с выбранным уровнем значимости, как правило а = 0,05. (Именно так и осуществляется проверка значимости модели в инструменте Регрессия из надстройки Пакет анализа.) При этом, если а > а, то нулевая гипотеза принимается.

— выборочное (несмещенное) стандартное отклонение фактора Xt. Затем проверяют значимость оценок а и Р, опираясь на распределение Стьюдента. Для этого вычисляются эмпирические значения f-статистики

и стандартным образом сравнивают их с табличным значением коэффициента Стьюдента ta v для выбранного уровня значимости а с числом степеней свободы v = (n- 2). Если проверка нулевой гипотезы подтвердила значимость вычисленных параметров регрессионной модели, можно построить интервальные оценки значений а и р.В частности, «истинные» значения параметров регрессионной модели а и Р при выбранном уровне значимости, например 0,05, попадают соответственно в интервалы

с доверительной вероятностью 0,95.

Если регрессионная модель (7.71) используется для прогнозирования ожидаемых значений результативного показателя, в частности для его экстраполяции на моменты времени n+т, где т — горизонт прогнозирования, необходимо предварительно рассчитать прогнозные значения объясняющего фактора

Если регрессионная модель построена по пространственным переменным, то (7.83) примет вид

Формулы (7.83) — (7.84) дают точечный прогноз. Вероятность его реализации практически равна нулю. Поэтому корректным завершением прогнозных оценок является построение интервальных прогнозов. Доверительный интервал рассчитывают с наперед выбранной доверительной вероятностью р = 1-а, где а — уровень значимости. По нему находят коэффициент доверия — значение коэффициента Стьюдента ta>. Этот коэффициент умножается на Se(cm. формулу (7.96)) и на коэффициент, отражающий среднюю ошибку расположения линии регрессии в генеральной совокупности

. В результате получаем доверительный интервал,

в который реальное будущее значение прогнозируемого показателя попадет в момент п+к с надежностью р:

Пример 7.16. Используя результаты примера 7.22, рассчитаем выборочный коэффициент детерминации, выборочный коэффициент множественной корреляции (в данном случае это коэффициент парной корреляции), стандартную ошибку оценки результативного показателя; оценим значимость уравнения регрессии; рассчитаем стандартные ошибки точечных оценок аир, эмпирические значения t-статистики для оценки их значимости; построим интервальные оценки значений а и Р; построим интервальный прогноз для т = 1.

Таблица 7.21

Регрессионная статистика

Рассчитано по формуле

Множественный R

0,9584

7.75

R-квадрат

0,9185

7.74

Стандартная ошибка

0,1891

7.77

Таблица 7.22

F

Значимость F

180,409

3,9546Е-10

Таблица 7.23

Коэффициенты

Стандартная

ошибка

t-статистика

Р-Значение

Нижние

95%

Верхние

95%

а

-1,0821

0,1452

-,4548

1,368Е-06

-1,3898

-0,7744

Р

0,1178

0,0088

13,4316

3,955Е-10

0,0992

0,1364

Результаты всех заданий, кроме последнего, можно взять из отчета инструмента Регрессия (см. табл. 7.21—7.23).

Уравнение регрессии имеет вид

Для построения прогноза у19 на момент t= 19 необходимо знать значение х19 (график и соответствующие расчеты приведены на рис. 7.24).

График значений фактора X,, его аппроксимация полиномом второй степени и расчет прогнозного значения х на момент f=19

Рис. 7.24. График значений фактора X,, его аппроксимация полиномом второй степени и расчет прогнозного значения х]9 на момент f=19:

? ряд 1, -полиноминальная (ряд 1)

Таким образом, у19 =-1,082 + 0,1178x26,58 = 2,049. Рассчитав по формулам (7.85) границы 95-процентного доверительного интервала, получим интервальный прогноз. Его смысл заключается в том, что реальное значение результативного показателя у9 в момент t—19 с вероятностью р- 0,95 попадет в отрезок У9 е [1,593; 2,505].

  • [1] Для того, чтобы рис. 7.22 можно было бы описать соотношением (7.62), достаточно ввести новые обозначения Yt = St, Xt = DPI, • Вместо временной может бытьзадана пространственная выборка.
  • [2] 2 Помимо метода наименьших квадратов для оценки параметров регрессионноймодели в эконометрике достаточно широко используется так называемый метод максимального правдоподобия. Однако для его применения должен быть известен вид законараспределения вероятностей имеющихся выборочных данных.
  • [3] Для этого достаточно числитель и знаменатель правой части равенства (7.67) разделить на (гг—1).
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >