ЛИНЕЙНАЯ РЕГРЕССИЯ С ОДНОЙ ОБЪЯСНЯЮЩЕЙ ПЕРЕМЕННОЙ (ПАРНАЯ РЕГРЕССИЯ)

В результате изучения данной главы студент должен: знать

  • определение теоретической и выборочной парной регрессии;
  • формулы для нахождения МНК-оценок коэффициентов парной регрессии;
  • формулу TSS = ESS + RSS для случая парной регрессии;
  • определение и интерпретацию коэффициента детерминации для парной регрессии;

уметь

  • находить оценки МНК-коэффициснтов парной регрессии;
  • определять качество подгонки парной регрессии с помощью коэффициента детерминации;

владеть

• навыками оценки парной регрессии в основных статистических пакетах.

Теоретическая и выборочная парная регрессия

Слово «регрессия», столь распространенное в эконометрике, в общем случае означает «движение назад, отступление, возвращение к более ранней стадии развития». Оно стало популярным после исследования Френсиса Гальтона1, изданного в 1886 г., перевод названия которого звучит как «Возвращение в сторону усреднения в наследуемом росте». В этой работе изучалась зависимость роста сыновей от роста их отцов. Было обнаружено, что у высоких отцов обычно и сыновья высокие, но не настолько, как отцы. Напротив, у отцов невысокого роста сыновья обычно были немного повыше, чем их папы. Таким образом, наблюдалась регрессия (в смысле «возвращение») к среднему росту. Как нередко бывает в науке, со временем перепутали основной результат (регрессия) и метод, которым он был получен. Об этом методе и пойдет речь ниже.

В настоящее время регрессионный анализ объединяет широкий круг задач, связанных с построением зависимостей между зависимой переменной У и независимыми переменными Xv ..., Хк. В этой главе мы ограничимся случаем одной независимой переменной (т.е. k = 1), а более общий случай будет рассмотрен в гл. 5.

Gallon F. Regression towards mediocrity in hereditary stature //Journal of the Anthropological Institute of Great Britain and Ireland. 1886. P. 246—263.

Зависимую переменную У называют также эндогенной, объясняемой, регрессантом, а независимую переменную X — экзогенной, объясняющей, регрессором.

Определение 3.1. Парной регрессией называется условное математическое ожидание случайной величины Y как функции от неслучайной объясняющей переменной X:

Подчеркнем, что регрессия в большей мере дает представления о средних значениях У, нежели об экстремальных.

При этом g(x) является линией теоретической регрессии. Если функция g(x) является линейной, то говорят о парной линейной регрессии. В этом случае

где ро и Pj — параметры линейной регрессионной модели.

На практике исследователь имеет дело с парами значений независимой и зависимой переменных (Ху, У,), где i = 1,..., п — номер наблюдения. По этой выборке из п наблюдений необходимо найти оценки параметров р0 и р,.

Для этой цели удобнее переписать уравнение парной линейной регрессии следующим образом:

где г, = Yi?- р0 — р,Х, — невязка (discrepancy) между реальным значением зависимой переменной Yt и соответствующим значением теоретической регрессии Р() + $хХ-г

В этой главе мы не делаем акцент на то, что s,, как и Yjt являются случайными. Это будет сделано в следующей главе, а для получения оценок параметров ро и р, нам удобнее рассматривать s; как ошибки (невязки, погрешности).

Итак, перед нами стоит задача получить статистические оценки параметров модели Yi = р0 + pjX; + е, по выборке (Х-, У;), где i = 1,..., п. Предположим, что эта задача решена и мы знаем Р0 и pt — оценки параметров ро и р,. Тогда мы можем провести па плоскости XY линию выборочной регрессии У = Р0 + РД (в данном случае это прямая). Уравнение регрессии с подставленными оценками параметров У= р0 + р,Х часто называют оцененным уравнением регрессии.

Определение 3.2. Значения Уу = р0 + р,Ху, i = 1,..., п, называются оценен- ными значениями зависимой переменной.

Определение 3.3. Для каждого из п наблюдений разница реального и оцененного значений зависимой переменной называется остатком регрессии: е- = Yj-Yi,i= 1,..., /2.

Отметим, что значения зависимой переменной Yi могут быть разбиты на две части разными способами. С помощью теоретической регрессии это можно сделать следующим образом:

В этом разложении р0 + р,Ху является детерминированной частью, а еу — случайной.

Второй способ — сделать это с помощью выборочной регрессии:

В этом разложении (30 + — часть, объясненная с помощью независимой переменной X, а е, — необъясненная часть.

Интуитивно понятно, что оценки р0 и р, можно будет признать «хорошими» в том случае, если остатки регрессии ev ..., еп будут небольшими, что будет соответствовать расположению линии выборочной регрессии «близко» к точкам (Xv Kj),..., п, Yn). Но остатков регрессии п штук, и при уменьшении одного может увеличиться другой. Поэтому необходимо выбрать некоторый критерий качества. Ниже перечислены некоторые из них с кратким обсуждением достоинств и недостатков.

я

5>хМ.)

Критерий 1, или «наивный»:

min. Недостатки этого крите-

i=1

рия очевидны. Поскольку среди отклонений могут быть как положительные, так и отрицательные, то, например, одно большое положительное отклонение может быть компенсировано несколькими маленькими отрицательными отклонениями. Поэтому лучше выбирать критерии, где отклонения разных знаков не могли бы взаимно компенсировать друг друга.

п

Критерий 2: X Pi) I “* mm- Можно показать1, что эта задача сводится 1-1

к задаче линейного программирования, которую необходимо решать с помощью численных методов, а это является достаточно трудоемкой задачей.

п

Критерий 3: Xе?(Ро> Pi) min. Как будет показано в следующем пара-

/-1

графе, применение этого критерия позволяет получить явные аналитические формулы для оценок (30 и (3,. Недостатком этого метода является неро- бастность, а именно: одно-единственное наблюдение, сильно отличающееся от остальных (такое наблюдение называется выбросом, англ, outlier), может очень сильно повлиять на оценки параметров. Конечно, этим же недостатком обладает и предыдущий критерий, но в меньшей степени.

Для получения более робастных оценок используют критерии приведенного ниже вида.

и

Критерий 4: Xg*(?,(P0> Pi)) min, гдеg(x) — функция, возрастающая не i-l

столь быстро, какх[1] [2] (критерий 3) или х (критерий 2)[2].

Замечание 3.1. Отметим, что во всех перечисленных критериях использовались отклонения от линии выборочной регрессии вдоль оси OY. Однако возможно минимизировать, например, сумму квадратов расстояний от точек (Хр У-), i=l,..., п, до линии выборочной регрессии. В этом случае говорят об ортогональной регрессии.

Из всех перечисленных критериев наиболее распространенным является критерий 3, как уже отмечалось выше, позволяющий получить аналитические формулы для оценок параметров. Этот критерий дал название методу наименьших квадратов (МНК), рассмотренному в следующем параграфе.

  • [1] См., например, работу [24].
  • [2] Примеры таких функций можно найти в работе [17].
  • [3] Примеры таких функций можно найти в работе [17].
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >