Множественный регрессионный анализ

Экономические явления, как правило, определяются большим числом одновременно и совокупно действующих факторов. В связи с этим часто возникает задача исследования зависимости одной зависимой переменной У от нескольких объясняющих переменных Х{, Х2, ..., Хп. Эта задача решается с помощью множественного регрессионного анализа.

Обозначим г-е наблюдение переменной уь а объясняющих переменных — хп, xj2,..., xip. Тогда модель множественной линейной регрессии можно представить в виде

где i=l,2, ..., п, а в, удовлетворяет приведенным выше предпосылкам (13.3)—(13.5).

Включение в регрессионную модель новых объясняющих переменных усложняет получаемые формулы и вычисления. Это приводит к целесообразности использования матричных обозначений. Матричное описание регрессии облегчает как теоретические концепции анализа, так и необходимые расчетные процедуры.

Введем обозначения: У = (уj у2... у,,)' — матрица-столбец, или вектор, значений зависимой переменной размера[1] и;

  • матрица значений объясняющих переменных, или матрица плана размера п х (р + 1) (обращаем внимание на то, что в матрицу X дополнительно введен столбец, все элементы которого равны 1, т.е. условно полагается, что в модели (13.22) свободный член (30 умножается на фиктивную переменную xi0, принимающую значение 1 для всех i: х/0= 1 (г =1,2,..., п)
  • (3 = (Р0 Р, ... рр)' — матрица-столбец, или вектор, параметров размера + 1);
  • ? = (s, е2 ... е,,)'матрица-столбец, или вектор, возмущений (случайных ошибок, остатков) размера п.

Тогда в матричной форме модель (13.22) примет вид

Оценкой згой модели по выборке является уравнение где b = (Ь0 Ь{ ... ЬрУ, е = (е, е2 ... е„)'.

Для оценки вектора неизвестных параметров |3 применим метод наименьших квадратов. Так как произведение транспонированной матрицы е' на саму матрицу е

то условие минимизации остаточной суммы квадратов запишется в виде

Учитывая, что при транспонировании произведения матриц получается произведение транспонированных матриц, взятых в обратном порядке, т.е. (ХЬ)' = b'x', получим после раскрытия скобок:

Произведение Y'Xb есть матрица размера (1 х п)[п х + 1) х х [(Р + 1)х 1] = (1 х 1), т.е. величина скалярная, следовательно, оно не меняется при транспонировании: Y'Xb = {Y'Xb)' = b'X'Y. Поэтому условие минимизации (13.24) примет вид

На основании необходимого условия экстремума функции нескольких переменных S(b0, bv ..., br), представляющей (13.24), необходимо приравнять к нулю частные производные по этим переменным или в матричной форме — вектор частных производных

Для вектора частных производных доказаны следующие формулы1:

1 Справедливость приведенных формул проиллюстрируем на примере.

Пусть6 = ^1 С = Ы> Л = (з д| ТаккакУс = (*Л)^ = 36|+46: wb'Ab = (bpJ^ ^*'j= 6, b,b2

= 2b'~ +6bfi2 +5b2, то -тг(Ь'с) = -^-(ЗЬ1 +462) = ( Д = с и -^-(b'Ab) = -^-(2b'{ + 6Ьф2 + 5b$) = 2

db do ^4 J do do

где b и с — вектор-столбцы, а А — симметрическая матрица, в которой элементы, расположенные симметрично относительно главной диагонали, равны.

Поэтому, полагая с = X'Y, а матрицу А = Х'Х (она является симметрической — см. (13.26)), найдем

откуда получаем систему нормальных уравнений в матричной форме для определения вектора Ь:

Найдем матрицы, входящие в это уравнение1. Матрица XX представляет матрицу сумм первых степеней, квадратов и попарных произведений п наблюдений объясняющих переменных:

Матрица X'Y есть вектор произведений п наблюдений объясняющих и зависимой переменных:

В частном случае из рассматриваемого матричного уравнения (13.25) с учетом соотношений (13.26) и (13.27) для одной объясняющей переменной (j) = 1) нетрудно получить уже рассматриваемую систему нормальных уравнений (12.10) для несгруппированных данных. Действительно, в этом случае матричное уравнение (13.25) принимает вид2

  • - и
  • 1 Здесыюд знаком Z подразумевается X-
  • 2 В случае одной объясняющей переменной отпадает необходимость в записи иод символом х второго индекса, указывающего номер переменной.

откуда непосредственно следует система нормальных уравнений (12.10) для несгруппированных данных.

Для решения матричного уравнения (13.25) относительно вектора оценок параметров b необходимо ввести еще одну предпосылку 6 для множественного регрессионного анализа: матрица Х'Х является неособенной, т.е. ее определитель не равен нулю. Следовательно, ранг матрицы Х'Х равен ее порядку, т.е. г (Х'Х) = р + 1. Из матричной алгебры известно (см., например, [9]), что г (Х'Х) = г (X), значит, г (X) + 1, т.е. ранг матрицы плана X равен числу ее столбцов. Это позволяет сформулировать предпосылку 6 множественного регрессионного анализа в следующем виде:

6. Векторы значений объясняющих переменных, или столбцы матрицы плана X, должны быть линейно независимыми, т.е. ранг матрицы Xмаксимальный (г(Х) - р + 1).

Кроме того, полагают, что число имеющихся наблюдений (значений) каждой из объясняющих переменных превосходит ранг матрицы X, т.е. п > г(Х) или п > р + 1, ибо в противном случае в принципе невозможно получение сколько-нибудь надежных статистических выводов.

Решением уравнения (13.25) является вектор

где (Х'Х)-1матрица, обратная матрице коэффициентов системы (13.25), а X'Y — матрица-столбец, или вектор, ее свободных членов.

Теорема Гаусса — Маркова, рассмотренная выше для парной регрессионной модели, остается верной и в общем виде для модели (13.23) множественной регрессии: оценка Ь = (Х'Х)-1 X'Y обладает наименьшей дисперсией в классе линейных несмещенных оценок, т.е. является эффектной оценкой параметра (3.

Зная вектор b, выборочное уравнение множественной регрессии представим в виде

где yXQ групповая (условная) средняя переменной Y при заданном векторе значений объясняющей переменной Xq = (1 хю х2о ... xf)0).

О Пример 13.4. Имеются следующие данные[2] (условные) о сменной добыче угля на одного рабочего Y (т), мощности пласта Х{ (м) и уровне механизации работ Х2 (%), характеризующие процесс добычи угля в 10 шахтах (табл. 13.6).

Таблица 13.6

i

*«1

*i2

Уг

i

*,1

*/2

Ух

1

8

5

5

е

8

8

6

2

11

8

10

7

9

6

6

3

12

8

10

8

9

4

5

4

9

5

7

9

8

5

6

5

8

7

5

10

12

7

8

Предполагая, что между переменными У, Хх и Х2 существует линейная корреляционная зависимость, найти ее аналитическое выражение (уравнение регрессии У по Х{ и Х2).

Решение. Обозначим

(напоминаем, что в матрицу плана X вводится дополнительный столбец чисел, состоящий из единиц).

Для удобства вычислений составляем вспомогательную таблицу (табл. 13.7).

Таблица 13.7

i

*il

*i2

1/,

4

4

yf

*;Л-2

9i*a

Уч

«?=<**,-Л)2

1

8

5

5

64

25

25

40

40

25

5,13

0,016

2

11

8

10

121

64

100

88

110

80

8,79

1,464

3

12

8

10

144

64

100

96

120

80

9,64

1,127

4

9

5

7

81

25

49

45

63

35

5,98

1,038

5

8

7

5

64

49

25

56

40

35

5,86

0,741

6

8

8

6

64

64

36

64

48

48

6,23

0,052

7

9

6

6

81

36

36

54

54

36

6,35

0,121

8

9

4

5

81

16

25

36

45

20

5,61

0,377

9

8

5

6

64

25

36

40

48

30

5,13

0,762

10

12

7

8

144

49

64

84

96

56

9,28

1,631

I

94

63

68

908

417

496

603

664

445

6,329

Теперь

(см. суммы в итоговой строке табл. 13.7);

Матрицу Л-1 =(Х'Х)~{ определим по формуле Л-1 = т—г Л, где [Л| — опре-

П

делитель матрицы Х'Х, Л — матрица, присоединенная к матрице Х'Х. Получим (рекомендуем читателю убедиться в этом самостоятельно)

Теперь в соответствии с формулой (13.28), умножая эту матрицу на вектор

С учетом равенства (13.29) уравнение множественной регрессии имеет вид: ух = -3,54 + 0,854^ + 0,367х2. Оно показывает, что при увеличении только мощности пласта Хх (при неизменном Х2) на 1 м, добыча угля на одного рабочего Y увеличивается в среднем на 0,854 т, а при увеличении только уровня механизации работ Х2 (при неизменной Хх) — в среднем на 0,367 т.

Добавление в регрессионную модель новой объясняющей переменной Х2 изменило коэффициент регрессии bx (Yпо Х{) с 1,016 для парной регрессии (см. пример 13.1) до 0,854 — для множественной регрессии. В этом никакого противоречия нет, так как во втором случае коэффициент регрессии позволяет оценить прирост зависимой переменной Y при изменении на единицу объясняющей переменной Хх в чистом виде, независимо от Х2. В случае парной регрессии Ь{ учитывает воздействие на Yне только переменной Х но и косвенно корреляционно связанной с ней переменной Х2. ?

На практике часто бывает необходимо сравнение влияния на зависимую переменную различных объясняющих переменных, когда последние выражаются разными единицами измерения. В этом случае используют стандартизованные коэффициенты регрессии Ь'} и коэффициенты эластичности Ej (j = 1,2,..., р):

Стандартизованный коэффициент регрессии Ь' показывает, на сколько величин sy изменится в среднем зависимая переменная Y при увеличении только j-й объясняющей переменной на sx., а коэффициент эластичности ?) — на сколько процентов (от средней) изменится в среднем Y при увеличении только X: на 1 %.

О Пример 13.5. По данным примера 13.4 сравнить раздельное влияние на сменную добычу угля двух факторов — мощности пласта и уровня механизации работ.

Решение. Для сравнения влияния каждой из объясняющих переменных по формуле (13.30) вычислим стандартизованные коэффициенты регрессии:

а по формуле (13.31) — коэффициенты эластичности:

(Здесь мы опустили расчет необходимых характеристик переменных:

Таким образом, увеличение мощности пласта и уровня механизации работ только на одно sVi или на одно sX2 увеличивает в среднем сменную

добычу угля на одного рабочего соответственно на 0,728.?(/ или на 0,285.v(/, а увеличение этих переменных на 1% (от своих средних значений) приводит в среднем к росту добычи угля соответственно на 1,18% и 0,34%. Итак, но обоим показателям на сменную добычу угля большее влияние оказывает фактор «мощность пласта» по сравнению с фактором «уровень механизации работ». ?

Преобразуем вектор оценок (13.28) с учетом формулы (13.23): или

т.е. оценки параметров (13.28), найденные по выборке, будут содержать случайные ошибки.

  • [1] Знаком ' обозначается операция транспонирования матриц.
  • [2] В этом примере использованы данные примера 13.1 с добавлением результатов наблюдений над новой объясняющей переменной Х2, при этом старую переменную X из примера13.1 обозначаем теперь Xv
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >