Свойства остатков

Первое свойство остатков следует из уравнения (1.1), которое показывает, что

т.е. остатки и объясняющая переменная не коррелированы,

Второе свойство остатков, которым обладают оценки, полученные МНК, представляется в виде

или

т.е. остатки и предсказанные значения не коррелированы. Третье свойство остатков имеет вид

математическое ожидание остатков равно нулю. В выборке /

Четвертое свойство остатков: остатки имеют постоянную дисперсию, т.е. для всех . Дисперсия остатков равна

Пятое свойство остатков: остатки не коррелированы между собой

для

Зная остаток для і-го наблюдения, мы ничего не можем сказать об остатке для j-го наблюдения . Заметим, что это свойство остатков исчезает при построении регрессии по временным рядам, в которых наблюдение каждого последующего года (месяца, квартала) зависит от наблюдения предыдущего года (месяца, квартала).

Четвертое и пятое свойства остатков можно проиллюстрировать графически (рис. 1.1).

Постоянство дисперсии остатков называют гомоскедастичностью остатков. Если же дисперсия остатков не постоянна, то имеет место гетероскедастичность остатков.

Распределение остатков при фиксированных значениях независимой переменной X

Рис. 1.1. Распределение остатков при фиксированных значениях независимой переменной X

Дисперсия остатков регрессии неизвестна и должна быть оценена. При этом нужно принять во внимание, что дисперсии оцененных параметров и зависят от дисперсии остатков . МНК-оценка дисперсии остатков имеет вид

или

Если распределение остатков не нормально, то наилучшим методом их оценки будет не МНК, а метод максимального правдоподобия.

Измерение ошибки аппроксимации определяется величиной коэффициента детерминации :

Эта величина принимает значения от нуля до единицы. Коэффициент может быть представлен также в виде следующей формулы:

где – остаток (величина отклонения от линии регрессии, которая минимизируется МНК).

Если велика, то регрессия не объясняет вариацию у. В этом случае коэффициент детерминации будет невелик (близок к нулю). Если многие точки фактических наблюдений лежат на линии регрессии или располагаются вблизи от нее, мала и, соответственно, коэффициент детерминации будет близок к единице. Если все наблюдения располагаются на линии регрессии, то а значит, и , тогда . Если же точки, соответствующие наблюдениям, не лежат на линии регрессии, то , а значит, регрессия не объясняет вариацию . В случае если Тогда наилучшей аппроксимацией данных будет линия для всех і, т.е. это горизонтальная линия, параллельная оси абсцисс и проходящая через точку , что соответствует случаю полной независимости переменных х и у.

Степень аппроксимации данных выборки, полученной регрессией , оценивается с помощью средней ошибки аппроксимации

Большей информативностью обладает средняя относительная ошибка аппроксимации

Значения средней относительной ошибки аппроксимации, не превышающие 10%, свидетельствуют о хорошем соответствии линии регрессии исходным данным.

Коэффициент детерминации R2 имеет две трактовки:

  • 1) это квадрат коэффициента парной корреляции между фактическими и расчетными значениями зависимой переменной, т.е. ;
  • 2) это квадрат коэффициента парной корреляции между у и x, т.е. :

Коэффициент парной корреляции – это мера тесноты линейной связи:

Можно представить коэффициент парной корреляции через коэффициент регрессии b, определяющий наклон регрессии к оси абсцисс:

Поданным рассматриваемого примера 1.1, коэффициент парной корреляции равен , а коэффициент детерминации , т.е. на 54% вариация объема собираемых налогов зависит от количества занятых, а на 46% – от других факторов.

Подчеркнем, что коэффициент парной корреляции представляет собой меру линейной связи между у и х. Если, например, существует полная квадратическая связь между у и х, которая описывается уравнением регрессии , то , а значит и , может иметь значения, далекие от единицы. В этом случае нужно провести преобразование переменных с тем, чтобы линеаризировать уравнение регрессии. Примем , тогда параболическое уравнение регрессии будет иметь вид , т.е. это уравнение адекватно линейному уравнению множественной регрессии (см. гл. 2).

Сформулированные свойства остатков проверяются после нахождения параметров уравнения регрессии. По уравнению регрессии находятся расчетные (предсказанные) значения зависимой переменной . После этого производится расчет остатков . Затем строится график остатков (residual plot). В случае гомоскедастичности остатков положительные и отрицательные значения остатков чередуются и находятся в области, параллельной оси абсцисс (рис. 1.2).

График остатков по данным нашего примера о зависимости выпуска продукции от стоимости основных фондов представлен на рис. 1.3. Расположение "облака" остатков позволяет предположить наличие гетероскедастичности.

Кроме визуального анализа остатков существует ряд специальных тестов, позволяющих выявить гетероскедастичность остатков: тесты Гольдфельда – Квандта, Парка, Глейзера, Уайта, ранговой корреляции Спирмена и др. Названные тесты рассмотрены в гл. 2.

Наличие гетероскедастичности сказывается на точности предсказания значения зависимой переменной на основе регрессии. Ошибка предсказания может быть представлена формулой

где – фактическое значение; – предсказанное значение для объекта 0; – отклонение фактического значения от "истинного" в генеральной совокупности; – отклонение "истинного" значения от предсказанного по регрессии.

График остатков (случай гомоскедастичности)

Рис. 1.2. График остатков (случай гомоскедастичности)

График остатков по данным примера

Рис. 1.3. График остатков по данным примера

Тогда дисперсия ошибки предсказания имеет вид

Таким образом, можно утверждать, что ошибка предсказания значения y на основе уравнения регрессии зависит от остаточной дисперсии/ (дисперсии остатков), от объема выборки п, от того, насколько значение (для объекта предсказания) отличается от среднего значения по наблюдаемым данным. Чем меньше остаточная дисперсия, чем больше объем выборки п и чем меньше вариация х, т.е. , а также чем ближе к , тем меньше ошибка предсказания.

Как уже отмечалось, на основе уравнения регрессии могут быть получены точечные прогнозные значения, , и интервальные оценки. Например, 95%-ный доверительный интервал значения при имеет вид

где – выборочная оценка остаточной дисперсии/(заменяет ); – критические 2,5%-ное значение, полученное по таблице t-распределения с степенями свободы.

Как показано на рис. 1.4, границы доверительного интервала представляют собой гиперболу. Самое "узкое" значение интервала – в точке и ее окрестностях; чем больше удалено значение от , тем шире становится доверительный интервал.

Устранение из выборки регионов, для которых значение остатка оказалось большим (в нашем примере это Калининградская, Рязанская, Воронежская области), позволило бы существенно улучшить свойства регрессии и повысить точность предсказания объема выпуска.

В заключение отметим, что парная регрессия довольно редко выступает в качестве эконометрической модели, поскольку исследуемые экономические явления формируются под влиянием не одного, а нескольких факторов. Этим обстоятельством

95%-ный доверительный интервал

Рис. 1.4. 95%-ный доверительный интервал

определяется гораздо большая распространенность множественной регрессии в экономическом моделировании.

 
< Пред   СОДЕРЖАНИЕ     След >