Основная задача множественного регрессионного анализа

Пусть имеются наблюдения за зависимой переменной Y и набором независимых переменных Ху Xv ..., Xj{. Тогда общий вид линейной модели множественной регрессии, описывающей каждое наблюдение исходных данных, можно записать следующим образом:

где N — общее число наблюдений; yi значение признака (переменной) Y в г-м наблюдении; х. — значение переменной X. в i-м наблюдении; г. — ошибка наблюдения; 0О, 0j,..., 0^ — неизвестные параметры.

Уравнение (4.1) называется уравнением множественной регрессии. Как и в уравнении парной регрессии (см. гл. 3), значения независимых переменных х. являются детерминированными (неслучайными) величинами, a yiстохастическими (случайными) величинами в силу случайности ег

В некоторых учебниках по эконометрике [2, 3, 11, 16, 17, 19, 28] рассматривается линейная модель множественной регрессии вида

которая сводится к модели (4.1), если предположить, что хю = 1, г= 1, 2,..., N.

В дальнейшем будем рассматривать уравнение множественной регрессии (4.1). Так же как и ранее, для определения оценок неизвестных параметров можно использовать метод наименьших квадратов. Для этого необходимо, чтобы случайная ошибка удовлетворяла некоторым предположениям, сходным с предположениями для модели парной регрессии.

  • 1. ?[8;] = 0, i = 1,2, ..., N. Это условие говорит о том, что Еу. | = 0О + 0,хи +... + Qkxik, т.е. при фиксированных х~ среднее ожидаемое значение отклика равно 0О + в{хп +... + Qkxik.
  • 2. Е[г]] = Ще.] = сг, г=1,2, ..., N — условие гомоскеда- стичности.
  • 3. E[ej Ej] = 0, i Ф j — некоррелированность ошибок для разных наблюдений.

Как и в парной регрессии, этих трех предположений достаточно для корректного оценивания параметров модели (4.1) методом наименьших квадратов. Но для проверки различных гипотез и построения доверительных интервалов необходимо предположение о нормальном распределении случайных ошибок.

4. еу - Лг(0, a2), i = 1, 2, ЛГ — условие нормальной линейной регрессионной модели.

Для удобства дальнейшего изложения целесообразно перейти к матричным обозначениям. Все наблюдаемые значения зависимой переменой объединим в вектор Y, все неизвестные параметры — в вектор 0, случайные ошибки — в вектор Е:

Введем детерминированную матрицу значений независимых переменных

Эту матрицу также называют матрицей значений объясняющих переменных, матрицей значений регрессоров, матрицей значений регрессионных функций, матрицей планирования. Число столбцов матрицы X соответствует количеству неизвестных параметров в модели (4.1). Первый столбец, состоящий из единиц, соответствует параметру 0О (xj0 =1).

Следует отметить, что все столбцы матрицы X должны быть линейно независимыми, т.е. эта матрица должна быть полного столбцового ранга. Кроме этого желательно, чтобы число строк матрицы X было больше числа столбцов (N > k + 1). Случаи, когда это условие не выполняется, не рассматриваются, так как при этом число оцениваемых параметров превышает число имеющихся наблюдений, что в дальнейшем не позволит получить корректные статистические результаты.

С учетом введенных обозначений уравнение (4.1) может быть записано в виде

Предположения о случайных ошибках, введенные ранее для вектора Е, примут следующий вид.

  • 1. ?[Е] = 0. Это условие говорит о том, что Е[Y] = Хв.
  • 2. Е|ЕЕГ| = а2/Л„ Это условие означает наличие свойств гомоскедастичносги и некоррелированности ошибок наблюдения.
  • 3. Е ~ Лг(0, а2/у), где /у — единичная матрица размерности N. Вектор случайных ошибок имеет совместное многомерное нормальное распределение с нулевым вектором математических ожиданий и ковариационной матрицей о2/дг.

Как и в случае парной регрессии, задача состоит в том, чтобы «наилучшим» образом оценить вектор неизвестных параметров 0.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >