Основные положения регрессионного анализа. Оценка параметров парной регрессионной модели. Теорема Гаусса—Маркова

Как отмечено в §3.2, рассматриваемая в регрессионном анализе зависимость У от X может быть представлена в виде модельного уравнения регрессии (3.1).

В силу воздействия неучтенных случайных факторов и причин отдельные наблюдения переменной У будут в большей или меньшей мере отклоняться от функции регрессии (p(2f). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлено в виде:

где ? — случайная переменная (случайный член), характеризующая отклонение от функции регрессии. Эту переменную будем называть возмущающей или просто возмущением (либо ошибкой)!. Таким образом, в регрессионной модели зависимая переменная У есть некоторая функция (р{Х) с точностью до случайного возмущения 8.

Рассмотрим линейный регрессионный анализ, для которого функции (p(x) линейна относительно оцениваемых параметров:

Предположим, что для оценки параметров линейной функции регрессии (3.21) взята выборка, содержащая п пар значений переменных (х„ yj), где /= 1,2,..., п. В этом случае линейная парная регрессионная модель имеет вид: [1]

Отметим основные предпосылки регрессионного анализа.

  • 1. В модели (3.22) возмущение1 е, (или зависимая переменная у!) есть величина случайная, а объясняющая переменная х,-величина неслучайная[2] [3] [4].
  • 2. Математическое ожидание возмущения е, равно нулю:

  • (или математическое ожидание зависимой переменной у,- равно линейной функции регрессии: Л/(у,)= р0 н-р,л:,).
  • 3. Дисперсия возмущения 6, (или зависимой переменной yj) постоянна для любого /:
  • (или D[)>j) = [3]) — условие гомоскедастичности или равноизмен- чивости возмущения (зависимой переменной)).
  • 4. Возмущения е, и е, (или переменные у, и yj) не коррелирован:

5. Возмущение е, (или зависимая переменная у,) есть нормально распределенная случайная величина.

В этом случае модель (3.22) называется классической нормальной линейной регрессионной моделью (Classical Normal Linear Regression model).

Для получения уравнения регрессии достаточно предпосылок 1—4. Требование выполнения предпосылки 5 (т. е. рассмотрение «нормальной регрессии») необходимо для оценки точности уравнения регрессии и его параметров.

Оценкой модели (3.22) по выборке является уравнение регрессии y = b{)+hx (3.3). Параметры этого уравнения и Ь определяются на основе метода наименьших квадратов. Об их нахождении подробно см. § 3.2.

Воздействие неучтенных случайных факторов и ошибок наблюдений в модели (3.22) определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии а1 2 3. Несмещенной оценкой этой дисперсии является выборочная остаточная дис- персия*.

где pi — групповая средняя, найденная по уравнению регрессии; е, = Pi - У) — выборочная оценка возмущения2 г,- или остаток рег-

рессии.

Напомним, что в математической статистике для получения несмещенной оценки дисперсии случайной величины соответствующую сумму квадратов отклонений от средней делят не на число наблюдений п, а на число степеней свободы (degress of freedom) п — т, равное разности между числом независимых наблюдений случайной величины п и числом связей, ограничивающих свободу их изменения, т. е. число т уравнений, связывающих эти наблюдения. Поэтому в знаменателе выражения

(3.26) стоит число степеней свободы /7 — 2, так как две степени свободы теряются при определении двух параметров прямой из системы нормальных уравнений (3.5).

Возникает вопрос, являются ли оценки Ь$, Ь, ^параметров ро, Pi о[6] [7] [8] «наилучшими»? Ответ на этот вопрос дает следующая теорема.

  • [1] В литературе переменную с называют также остаточной или остатком.
  • [2] Во всех предпосылках /-1,2,..., /?.
  • [3] При этом предполагается, что среди значений х, (/-1,2,...,/?) не все одинаковые, так что имеет смысл формула (3.13) для коэффициента регрессии.
  • [4] Требование некоррелированности Cov(e„ ?у)=0 с учетом (2.30) и (3.23) приводит к условию (3.25): Cov(e;, zj)=M(zi- 0)(еу - 0)| = Л/(е, zj) = 0. При выполнениипредпосылки 5 это требование равносильно независимости переменных е, и еу(У, и yj).
  • [5] При этом предполагается, что среди значений х, (/-1,2,...,/?) не все одинаковые, так что имеет смысл формула (3.13) для коэффициента регрессии.
  • [6] Формула (3.26) при р = 1 является частным случаем формулы (4.21), доказанной ниже в § 4.4.
  • [7] е, называют также невязкой.
  • [8] Доказательство теоремы Гаусса—Маркова в общем виде приведено в § 4.4.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >