Множественная регрессия

Множественная линейная регрессия в скалярной и векторной формах

Уравнение множественной регрессии отражает корреляционную связь результативной (зависимой) переменной у и нескольких объясняющих (независимых) :

(2.1)

где у – результативная переменная (зависимая, объясняемая); – объясняющие переменные (независимые); – случайный остаток; – некая математическая функция.

Если в качестве функции в формуле (2.1) выбрана линейная, уравнение регрессии называется уравнением множественной линейной регрессии и имеет вид

где – параметры.

В ряде случаев удобнее пользоваться матричной записью этого уравнения

где X – матрица значений независимых переменных

Первый столбец этой матрицы состоит из единиц, которые рассматриваются как значения дополнительной переменной, на которую умножается свободный член. В матрицу X входит р независимых переменных, принимающих п значений.

– матрицы-столбцы значений зависимой переменной (матрица Y), параметров регрессии (матрица ) и случайных остатков (матрица ε):

Векторы Y и ε включают в себя по п значений зависимой переменной и случайных остатков, вектор а состоит из значений параметра – свободного члена и р коэффициентов регрессии .

Метод наименьших квадратов и предпосылки его применения для множественной линейной регрессии

Для определения значений параметров уравнения множественной регрессии используют числовую информацию, которая рассматривается как выборочная. Поэтому рассчитанные на ее основе величины называют оценками параметров,

подчеркивая тем самым их возможную неточность из-за неполноты информации. Оценки параметров могут меняться от выборки к выборке, поэтому они рассматриваются как случайные величины.

Далее будем различать обозначения параметров и случайных остатков, полученных по выборке (т.е. по имеющимся у исследователя данным), и значения параметров и случайных остатков по генеральной совокупности. Для обозначения выборочных значений будут использоваться латинские буквы: ; в матричной форме: ; для генеральных значений – греческие буквы: ; в матричной форме: .

Так как найденные параметры являются лишь выборочными оценками неизвестных параметров по генеральной совокупности, то возникает вопрос об их качестве. Характеристиками качества полученных оценок параметров регрессии являются их несмещенность, эффективность и состоятельность.

Оценка параметра является несмещенной, если ее математическое ожидание равно оцениваемому параметру. Например, математическое ожидание оценки коэффициента регрессии аj равно его значению в генеральной совокупности :

Оценка параметра является эффективной, если она имеет наименьшую дисперсию среди всех возможных оценок данного параметра по выборкам одного и того же объема:

где – эффективная оценка параметра; – дисперсия эффективной оценки параметра ; – дисперсия оценки параметра α;•, полученной при применении k-го метода.

Оценка параметра является состоятельной, если с увеличением числа наблюдений она стремится к значению параметра в генеральной совокупности:

Простейшим методом оценки параметров множественной регрессии является МНК. МНК-оценки будут несмещенными, эффективными и состоятельными при выполнении определенных требований, называемых предпосылками МНК. Эти требования касаются статистических свойств исходных данных:

  • – независимые переменные являются неслучайными величинами, не связанными между собой;
  • – зависимая переменная является случайной величиной, не ограниченной сверху или снизу;
  • – для каждого набора значений независимых переменных результативная переменная рассматривается как отдельная случайная величина . Ее распределение описывается нормальным законом с математическим ожиданием, равным выровненному значению зависимой переменной:

Например, в модели с тремя независимыми переменными имеется наблюдение номер десять . Для этих значений объясняющих переменных результативная переменная является случайной величиной с математическим ожиданием .

Вторая характеристика нормального распределения – среднее квадратическое отклонение σY может быть любым, однако оно должно быть одинаковым для всех случайных величин :

– разные случайные величины и должны быть независимы друг от друга:

Линейная модель регрессии, для которой выполняются эти условия, называется классической нормальной линейной моделью.

Так как случайная величина в линейной регрессии представляет собой сумму неслучайной величины и случайного остатка , то все перечисленные выше требования к случайной величине можно сформулировать в форме требований к случайным остаткам модели регрессии , которые (кроме последнего требования) называются условиями ГауссаМаркова.

1. Математическое ожидание случайного остатка равно нулю:

(2.2)

2. Дисперсия случайных остатков одинакова для различных і и j.

(2.3)

3. Случайные остатки не зависят друг от друга (не автокоррелированы):

(2.4)

4. Случайные остатки не зависят от значений независимых переменных, входящих в модель регрессии:

(2.5)

5. Случайные остатки распределены по нормальному закону распределения.

Метод наименьших квадратов основывается на принципе минимизации квадратов отклонений фактических значений результативного признака у от его выровненных значений у, рассчитанных по уравнению регрессии

(2.6)

Для множественной линейной регрессии выражение (2.6) будет иметь вид

Для нахождения экстремума по каждому из неизвестных параметров рассчитывается производная функции и полученное выражение приравнивается к нулю:

(2.7)

После преобразований система уравнений (2.7) имеет вид

(2.8)

Система (2.8) называется системой нормальных уравнений. В матричной форме применение МНК приводит к следующему результату:

(2.9)

Пример

Имеются статистические данные о значениях четырех показателей в разрезе 48 субъектов РФ, которые приведены в табл. 2.1.

  • 1. Поступление налогов, сборов и иных обязательных платежей в консолидированный бюджет РФ (без поступлений ЕСН) в 2009 г., млн. руб.
  • 2. Количество занятых в Российской Федерации в 2009 г., тыс. человек.
  • 3. Объем отгруженных товаров собственного производства, выполненных работ и оказанных услуг собственными силами по виду экономической деятельности "Обрабатывающие производства" в Российской Федерации в 2009 г., млн руб.
  • 4. Объем отгруженных товаров собственного производства, выполненных работ и услуг собственными силами по виду экономической деятельности "Производство и распределение электроэнергии, газа и воды" в Российской Федерации в 2009 г., млн руб.

Предположим, что зависимой переменной y в данном случае является "поступление налогов, сборов и иных обязательных платежей в консолидированный бюджет РФ". Для краткости будем называть эту переменную "поступление налогов". Независимыми переменными являются остальные три переменные, которые мы будем называть и обозначать как "количество занятых" , "отгрузка в обрабатывающих производствах" , "производство энергии" . Допустим также, что связь между зависимой и независимыми переменными может быть выражена в виде линейной функции регрессии a случайные остатки удовлетворяют условиям Гаусса – Маркова.

Таблица 2.1. Некоторые экономические показатели деятельности субъектов РФ в 2009 г.

Субъект РФ

Поступление налогов, млн руб.

Количество занятых, тыс. человек

Отгрузка в обрабатывающих производствах, млн руб.

Производство энергии, млн руб.

y

x1

x2

x3

Республика Ингушетия

1422,20

107,20

266

733

Еврейская автономная область

2529,70

82,30

2865

2040

Республика Тыва

2629,10

101,60

431

2023

Республика Алтай

2764,30

87,60

1228

1176

Карачаево-Черкесская Республика

3347,50

188,30

10 921

4275

Республика Калмыкия

3914,20

121,90

928

1495

Республика Адыгея

4400,80

187,10

12 565

3000

Республика Северная Осетия – Алания

5904,00

326,50

11 088

3337

Магаданская область

6956,70

97,10

2486

8305

Кабардино-Балкарская Республика

7595,10

352,50

17 609

5790

Республика Хакасия

9257,80

254,70

39 640

17 634

Чукотский автономный округ

9317,10

30,50

531

6226

Республика Марий Эл

9978,80

323,70

46 180

7489

Псковская область

10 144,80

323,30

32 074

5640

Чеченская Республика

10 215,40

357,00

579

6170

Республика Карелия

11 349,50

337,80

39 962

14 684

Курганская область

12 046,90

393,00

38 308

12 093

Республика Мордовия

12 061,40

439,00

65 507

7312

Костромская область

12 104,20

340,90

50 532

20 922

Камчатский край

13 042,40

190,00

11 245

12 721

Орловская область

13 104,30

375,00

38 089

9612

Ивановская область

13 396,40

491,20

42 865

18 506

Республика Дагестан

14 170,30

1104,10

21 031

12 573

Тамбовская область

14 227,00

499,50

47 738

9522

Новгородская область

16 868,50

322,50

80 915

8989

Республика Бурятия

18 019,40

392,30

29 660

12 532

Смоленская область

18 950,30

505,40

78 278

43 604

Курская область

19 995,50

536,50

67 241

43 733

Забайкальский край

20 445,60

482,00

7910

13 687

Липецкая область

21 220,80

575,50

228 812

17 311

Ульяновская область

21 360,00

619,10

76 523

16 471

Пензенская область

21 418,80

634,30

71 307

12 061

Кировская область

21 477,10

684,00

76 151

20 857

Чувашская Республика

21 816,30

608,40

85 926

17 071

Астраханская область

22 824,90

475,80

34 576

10 532

Брянская область

23 579,30

569,80

57 187

10 519

Амурская область

23 702,60

417,30

16 412

16 512

Калужская область

24 007,20

530,50

161 769

10 369

Тульская область

27 581,20

746,60

182 031

24 376

Вологодская область

28 057,50

617,80

236 267

23 180

Алтайский край

29 815,50

1125,50

115 197

24 804

Тверская область

32 236,50

687,40

103 158

44 961

Белгородская область

32 657,40

754,90

233 608

18 773

Владимирская область

32 672,70

688,40

142 867

20 093

Мурманская область

34 351,10

482,20

49 081

34 395

Воронежская область

36 050,40

1042,40

125 343

39 170

Рязанская область

36 544,30

522,00

95 522

23 932

Калининградская область

37 136,90

459,50

147 573

15 429

Источник: данные Росстата.

Применяя к исходным данным (см. табл. 2.1) МНК, оценим параметры регрессии. Система нормальных уравнений для нашего примера имеет вид

После вычислений получаем уравнение

Из уравнения регрессии следует, что между сбором налогов и независимыми переменными, входящими в модель, наблюдается прямая связь. Напомним, что коэффициенты при независимых переменных называются коэффициентами регрессии. Они являются абсолютными показателями силы связи и характеризуют среднее изменение зависимой переменной при единичном изменении независимой переменной – сомножителя данного коэффициента при условии неизменности остальных независимых переменных, включенных в уравнение (модель) регрессии.

В частности, можно сделать вывод, что с изменением количества занятых на 1 тыс. человек поступление налогов в среднем изменится в ту же сторону на 12,45 млн руб. при неизменном объеме отгрузки в обрабатывающих производствах и производстве энергии.

Изменение объема отгрузки в обрабатывающих производствах на 1 млн руб. приведет к изменению поступления налогов в среднем на 0,06 млн руб. при неизменных значениях количества занятых и производства энергии.

При изменении производства энергии на 1 млн руб. поступление налогов в среднем изменится на 0,31 млн руб. при неизменных значениях количества занятых и объема отгрузки в обрабатывающих производствах.

Величины коэффициентов регрессии определяются не только силой связи между показателями, но и масштабом их измерения, и поэтому несравнимы между собой. Для сопоставления независимых переменных по силе их влияния на результативную используют относительные показатели силы связи – коэффициенты эластичности.

Общая формула коэффициента эластичности по переменной Xj имеет вид

где – частная производная функции регрессии по переменной ; – выровненное значение зависимой переменной y при заданном значении переменной .

Отметим, что коэффициенты эластичности могут быть рассчитаны для любой функции – как линейной, так и нелинейной. Например, для множественной линейной регрессии коэффициент эластичности по переменной х; будет равен

(2.10)

Из формулы (2.10) следует, что коэффициент эластичности для линейной функции зависит от конкретных значений независимых переменных, включенных в модель. Так как коэффициент эластичности измеряет влияние переменной xj на переменную y, то значения остальных независимых переменных принято фиксировать на их среднем уровне:

Таким образом, при фиксированных значениях других переменных существует целый ряд коэффициентов эластичности по переменной , определяемый областью ее значений. Они называются частными коэффициентами эластичности. Если зафиксировать значение на среднем уровне, получим средний коэффициент эластичности (или коэффициент эластичности для среднего значения ):

(2.11)

Как следует из МНК для линейной регрессии, выражение в знаменателе (2.11) равно среднему значению зависимой переменной, что позволяет упростить формулу:

Коэффициенты эластичности показывают, на сколько процентов в среднем изменится зависимая переменная при изменении переменной на 1% и значениях других независимых переменных, фиксированных на средних уровнях. Так как величина коэффициента эластичности зависит от выбранного значения независимой переменной, при формулировке вывода следует указывать это значение переменной и соответствующее ему выровненное значение зависимой переменной.

Рассмотрим средние коэффициенты эластичности для регрессии, полученной в примере 2.1.

Для характеристики силы связи количества занятых и поступления налогов рассчитаем коэффициент эластичности

Следовательно, с изменением количества занятых на 1% от среднего уровня поступление налогов в среднем изменится в ту же сторону на 0,32% своего среднего уровня при неизменном объеме отгрузки в обрабатывающих производствах и производстве энергии.

Коэффициенты эластичности для переменных "объем отгрузки в обрабатывающих производствах" и "производство энергии" рассчитываются и интерпретируются аналогично. Они равны

Сопоставляя полученные коэффициенты эластичности, можно сделать вывод о том, что наиболее сильное влияние на сбор налогов оказывает число занятых.

Другими относительными показателями силы связи являются стандартизованные коэффициенты регрессии. В отличие от коэффициентов эластичности, они рассчитываются только для случая множественной линейной регрессии по формуле

Для примера 2.1 стандартизованные коэффициенты регрессии равны

Стандартизованные коэффициенты регрессии могут быть проинтерпретированы. Величина показывает, на сколько своих средних квадратических отклонений в среднем изменится зависимая переменная при изменении переменной xj• на одно свое среднее квадратическое отклонение при фиксированных значениях других переменных, включенных в модель регрессии. Например, при изменении количества занятых на поступление налогов в среднем изменится в ту же сторону на при неизменном объеме отгрузки в обрабатывающих производствах и производстве энергии.

Сопоставление стандартизованных коэффициентов регрессии для примера 2.1 приводит к другим, чем по коэффициентам эластичности, выводам о том, какая переменная оказывает более сильное влияние на результативную переменную. В данном случае это , т.е. объем отгрузки в обрабатывающих производствах. Такое изменение в выводах объясняется разным уровнем вариации независимых переменных. Можно показать, что отношение стандартизованных коэффициентов регрессии равно

где – коэффициенты вариации переменных и .

Стандартизованные коэффициенты регрессии являются коэффициентами в функции регрессии, построенной на основе стандартизованных переменных – переменных, полученных в результате преобразования исходных данных по формулам

где і-e значение стандартизованной зависимой переменной; i-e значение стандартизованной j-й независимой переменной; – средние значения переменных– средние квадратические отклонения переменных /

Уравнение регрессии, включающее стандартизованные переменные, называют уравнением регрессии в стандартизованном масштабе (форме, виде):

(2.12)

где – случайный остаток.

Так как уравнение построено на основе непреобразованных переменных, его еще называют уравнением регрессии в натуральном масштабе.

Особенностью уравнения регрессии в стандартизованном масштабе является отсутствие в нем свободного члена. Это свойство является следствием двух утверждений:

  • – среднее значение стандартизованной переменной равно нулю;
  • – свободный член уравнения множественной линейной регрессии равен

Таким образом, прямая, построенная на основе уравнения регрессии в стандартизованном масштабе, всегда проходит через начало координат. Этим же свойством обладает уравнение регрессии, построенное на основе центрированных переменных, которые рассчитываются по формулам

(2.13)

При использовании центрированных переменных коэффициенты регрессии и случайные остатки равны коэффициентам регрессии и случайным остаткам уравнения в натуральном масштабе:

(2.14)

На рис. 2.1 дана геометрическая интерпретация МНК для множественной линейной регрессии. Каждую переменную, образующую столбец матрицы X, можно рассматривать как вектор-столбец , где . Так как векторы образуют многомерное пространство, изобразить их на рисунке невозможно. Можно, однако, воспользоваться тем, что вектор (содержащий выровненные значения зависимой переменной) является линейной комбинацией векторов . На рис. 2.1 это вектор , лежащий в подпространстве, образованном независимыми переменными, которое называют пространством оценок. Вектор лежит вне этого подпространства. Для удобства будем считать, что все векторы выходят из точки 0. Тогда начало вектора также будет исходить из точки 0. При формировании проекции вектора на пространство оценок наименьшую длину будет иметь перпендикуляр к этому пространству – вектор случайных остатков . Следовательно, параметры вектора выровненных значений должны быть подобраны таким образом, чтобы векторы сформировали прямоугольный треугольник.

Так как вектор ортогонален вектору , то их произведение равно нулю:

Геометрическая интерпретация ΜΗΚ

Рис. 2.1. Геометрическая интерпретация ΜΗΚ

Из последнего выражения следует, что вектор параметров а или равен нулю (нулевая проекция, вектор Υ ортогонален векторам X, переменная / не зависит от переменных х), или

Откуда

Таким образом, на основе геометрической интерпретации мы получили ту же формулу для оценки параметров регрессии, что и аналитическим путем.

 
< Пред   СОДЕРЖАНИЕ     След >