Множественная регрессия
Множественная линейная регрессия в скалярной и векторной формах
Уравнение множественной регрессии отражает корреляционную связь результативной (зависимой) переменной у и нескольких объясняющих (независимых) :
(2.1)
где у – результативная переменная (зависимая, объясняемая);
– объясняющие переменные (независимые);
– случайный остаток;
– некая математическая функция.
Если в качестве функции в формуле (2.1) выбрана линейная, уравнение регрессии называется уравнением множественной линейной регрессии и имеет вид
где – параметры.
В ряде случаев удобнее пользоваться матричной записью этого уравнения
где X – матрица значений независимых переменных
Первый столбец этой матрицы состоит из единиц, которые рассматриваются как значения дополнительной переменной, на которую умножается свободный член. В матрицу X входит р независимых переменных, принимающих п значений.
– матрицы-столбцы значений зависимой переменной (матрица Y), параметров регрессии (матрица
) и случайных остатков (матрица ε):
Векторы Y и ε включают в себя по п значений зависимой переменной и случайных остатков, вектор а состоит из значений параметра – свободного члена
и р коэффициентов регрессии
.
Метод наименьших квадратов и предпосылки его применения для множественной линейной регрессии
Для определения значений параметров уравнения множественной регрессии используют числовую информацию, которая рассматривается как выборочная. Поэтому рассчитанные на ее основе величины называют оценками параметров,
подчеркивая тем самым их возможную неточность из-за неполноты информации. Оценки параметров могут меняться от выборки к выборке, поэтому они рассматриваются как случайные величины.
Далее будем различать обозначения параметров и случайных остатков, полученных по выборке (т.е. по имеющимся у исследователя данным), и значения параметров и случайных остатков по генеральной совокупности. Для обозначения выборочных значений будут использоваться латинские буквы: ; в матричной форме:
; для генеральных значений – греческие буквы:
; в матричной форме:
.
Так как найденные параметры являются лишь выборочными оценками неизвестных параметров по генеральной совокупности, то возникает вопрос об их качестве. Характеристиками качества полученных оценок параметров регрессии являются их несмещенность, эффективность и состоятельность.
Оценка параметра является несмещенной, если ее математическое ожидание равно оцениваемому параметру. Например, математическое ожидание оценки коэффициента регрессии аj равно его значению в генеральной совокупности :
Оценка параметра является эффективной, если она имеет наименьшую дисперсию среди всех возможных оценок данного параметра по выборкам одного и того же объема:
где – эффективная оценка параметра
;
– дисперсия эффективной оценки параметра
;
– дисперсия оценки параметра α;•, полученной при применении k-го метода.
Оценка параметра является состоятельной, если с увеличением числа наблюдений она стремится к значению параметра в генеральной совокупности:
Простейшим методом оценки параметров множественной регрессии является МНК. МНК-оценки будут несмещенными, эффективными и состоятельными при выполнении определенных требований, называемых предпосылками МНК. Эти требования касаются статистических свойств исходных данных:
- – независимые переменные являются неслучайными величинами, не связанными между собой;
- – зависимая переменная является случайной величиной, не ограниченной сверху или снизу;
- – для каждого набора значений независимых переменных результативная переменная рассматривается как отдельная случайная величина
. Ее распределение описывается нормальным законом с математическим ожиданием, равным выровненному значению зависимой переменной:
Например, в модели с тремя независимыми переменными имеется наблюдение номер десять . Для этих значений объясняющих переменных результативная переменная является случайной величиной
с математическим ожиданием
.
Вторая характеристика нормального распределения – среднее квадратическое отклонение σY может быть любым, однако оно должно быть одинаковым для всех случайных величин :
– разные случайные величины и
должны быть независимы друг от друга:
Линейная модель регрессии, для которой выполняются эти условия, называется классической нормальной линейной моделью.
Так как случайная величина в линейной регрессии представляет собой сумму неслучайной величины
и случайного остатка
, то все перечисленные выше требования к случайной величине
можно сформулировать в форме требований к случайным остаткам модели регрессии
, которые (кроме последнего требования) называются условиями Гаусса – Маркова.
1. Математическое ожидание случайного остатка равно нулю:
(2.2)
2. Дисперсия случайных остатков одинакова для различных і и j.
(2.3)
3. Случайные остатки не зависят друг от друга (не автокоррелированы):
(2.4)
4. Случайные остатки не зависят от значений независимых переменных, входящих в модель регрессии:
(2.5)
5. Случайные остатки распределены по нормальному закону распределения.
Метод наименьших квадратов основывается на принципе минимизации квадратов отклонений фактических значений результативного признака у от его выровненных значений у, рассчитанных по уравнению регрессии
(2.6)
Для множественной линейной регрессии выражение (2.6) будет иметь вид
Для нахождения экстремума по каждому из неизвестных параметров рассчитывается производная функции
и полученное выражение приравнивается к нулю:
(2.7)
После преобразований система уравнений (2.7) имеет вид
(2.8)
Система (2.8) называется системой нормальных уравнений. В матричной форме применение МНК приводит к следующему результату:
(2.9)
Пример
Имеются статистические данные о значениях четырех показателей в разрезе 48 субъектов РФ, которые приведены в табл. 2.1.
- 1. Поступление налогов, сборов и иных обязательных платежей в консолидированный бюджет РФ (без поступлений ЕСН) в 2009 г., млн. руб.
- 2. Количество занятых в Российской Федерации в 2009 г., тыс. человек.
- 3. Объем отгруженных товаров собственного производства, выполненных работ и оказанных услуг собственными силами по виду экономической деятельности "Обрабатывающие производства" в Российской Федерации в 2009 г., млн руб.
- 4. Объем отгруженных товаров собственного производства, выполненных работ и услуг собственными силами по виду экономической деятельности "Производство и распределение электроэнергии, газа и воды" в Российской Федерации в 2009 г., млн руб.
Предположим, что зависимой переменной y в данном случае является "поступление налогов, сборов и иных обязательных платежей в консолидированный бюджет РФ". Для краткости будем называть эту переменную "поступление налогов". Независимыми переменными являются остальные три переменные, которые мы будем называть и обозначать как "количество занятых" , "отгрузка в обрабатывающих производствах"
, "производство энергии"
. Допустим также, что связь между зависимой и независимыми переменными может быть выражена в виде линейной функции регрессии
a случайные остатки удовлетворяют условиям Гаусса – Маркова.
Таблица 2.1. Некоторые экономические показатели деятельности субъектов РФ в 2009 г.
Субъект РФ |
Поступление налогов, млн руб. |
Количество занятых, тыс. человек |
Отгрузка в обрабатывающих производствах, млн руб. |
Производство энергии, млн руб. |
|
y |
x1 |
x2 |
x3 |
||
Республика Ингушетия |
1422,20 |
107,20 |
266 |
733 |
|
Еврейская автономная область |
2529,70 |
82,30 |
2865 |
2040 |
|
Республика Тыва |
2629,10 |
101,60 |
431 |
2023 |
|
Республика Алтай |
2764,30 |
87,60 |
1228 |
1176 |
|
Карачаево-Черкесская Республика |
3347,50 |
188,30 |
10 921 |
4275 |
|
Республика Калмыкия |
3914,20 |
121,90 |
928 |
1495 |
|
Республика Адыгея |
4400,80 |
187,10 |
12 565 |
3000 |
|
Республика Северная Осетия – Алания |
5904,00 |
326,50 |
11 088 |
3337 |
|
Магаданская область |
6956,70 |
97,10 |
2486 |
8305 |
|
Кабардино-Балкарская Республика |
7595,10 |
352,50 |
17 609 |
5790 |
|
Республика Хакасия |
9257,80 |
254,70 |
39 640 |
17 634 |
|
Чукотский автономный округ |
9317,10 |
30,50 |
531 |
6226 |
|
Республика Марий Эл |
9978,80 |
323,70 |
46 180 |
7489 |
|
Псковская область |
10 144,80 |
323,30 |
32 074 |
5640 |
|
Чеченская Республика |
10 215,40 |
357,00 |
579 |
6170 |
|
Республика Карелия |
11 349,50 |
337,80 |
39 962 |
14 684 |
|
Курганская область |
12 046,90 |
393,00 |
38 308 |
12 093 |
|
Республика Мордовия |
12 061,40 |
439,00 |
65 507 |
7312 |
|
Костромская область |
12 104,20 |
340,90 |
50 532 |
20 922 |
|
Камчатский край |
13 042,40 |
190,00 |
11 245 |
12 721 |
|
Орловская область |
13 104,30 |
375,00 |
38 089 |
9612 |
|
Ивановская область |
13 396,40 |
491,20 |
42 865 |
18 506 |
|
Республика Дагестан |
14 170,30 |
1104,10 |
21 031 |
12 573 |
|
Тамбовская область |
14 227,00 |
499,50 |
47 738 |
9522 |
|
Новгородская область |
16 868,50 |
322,50 |
80 915 |
8989 |
|
Республика Бурятия |
18 019,40 |
392,30 |
29 660 |
12 532 |
|
Смоленская область |
18 950,30 |
505,40 |
78 278 |
43 604 |
|
Курская область |
19 995,50 |
536,50 |
67 241 |
43 733 |
|
Забайкальский край |
20 445,60 |
482,00 |
7910 |
13 687 |
|
Липецкая область |
21 220,80 |
575,50 |
228 812 |
17 311 |
|
Ульяновская область |
21 360,00 |
619,10 |
76 523 |
16 471 |
|
Пензенская область |
21 418,80 |
634,30 |
71 307 |
12 061 |
|
Кировская область |
21 477,10 |
684,00 |
76 151 |
20 857 |
|
Чувашская Республика |
21 816,30 |
608,40 |
85 926 |
17 071 |
|
Астраханская область |
22 824,90 |
475,80 |
34 576 |
10 532 |
|
Брянская область |
23 579,30 |
569,80 |
57 187 |
10 519 |
|
Амурская область |
23 702,60 |
417,30 |
16 412 |
16 512 |
|
Калужская область |
24 007,20 |
530,50 |
161 769 |
10 369 |
|
Тульская область |
27 581,20 |
746,60 |
182 031 |
24 376 |
|
Вологодская область |
28 057,50 |
617,80 |
236 267 |
23 180 |
|
Алтайский край |
29 815,50 |
1125,50 |
115 197 |
24 804 |
|
Тверская область |
32 236,50 |
687,40 |
103 158 |
44 961 |
|
Белгородская область |
32 657,40 |
754,90 |
233 608 |
18 773 |
|
Владимирская область |
32 672,70 |
688,40 |
142 867 |
20 093 |
|
Мурманская область |
34 351,10 |
482,20 |
49 081 |
34 395 |
|
Воронежская область |
36 050,40 |
1042,40 |
125 343 |
39 170 |
|
Рязанская область |
36 544,30 |
522,00 |
95 522 |
23 932 |
|
Калининградская область |
37 136,90 |
459,50 |
147 573 |
15 429 |
|
Источник: данные Росстата.
Применяя к исходным данным (см. табл. 2.1) МНК, оценим параметры регрессии. Система нормальных уравнений для нашего примера имеет вид
После вычислений получаем уравнение
Из уравнения регрессии следует, что между сбором налогов и независимыми переменными, входящими в модель, наблюдается прямая связь. Напомним, что коэффициенты при независимых переменных называются коэффициентами регрессии. Они являются абсолютными показателями силы связи и характеризуют среднее изменение зависимой переменной при единичном изменении независимой переменной – сомножителя данного коэффициента при условии неизменности остальных независимых переменных, включенных в уравнение (модель) регрессии.
В частности, можно сделать вывод, что с изменением количества занятых на 1 тыс. человек поступление налогов в среднем изменится в ту же сторону на 12,45 млн руб. при неизменном объеме отгрузки в обрабатывающих производствах и производстве энергии.
Изменение объема отгрузки в обрабатывающих производствах на 1 млн руб. приведет к изменению поступления налогов в среднем на 0,06 млн руб. при неизменных значениях количества занятых и производства энергии.
При изменении производства энергии на 1 млн руб. поступление налогов в среднем изменится на 0,31 млн руб. при неизменных значениях количества занятых и объема отгрузки в обрабатывающих производствах.
Величины коэффициентов регрессии определяются не только силой связи между показателями, но и масштабом их измерения, и поэтому несравнимы между собой. Для сопоставления независимых переменных по силе их влияния на результативную используют относительные показатели силы связи – коэффициенты эластичности.
Общая формула коэффициента эластичности по переменной Xj имеет вид
где – частная производная функции регрессии по переменной
;
– выровненное значение зависимой переменной y при заданном значении переменной
.
Отметим, что коэффициенты эластичности могут быть рассчитаны для любой функции – как линейной, так и нелинейной. Например, для множественной линейной регрессии коэффициент эластичности по переменной х; будет равен
(2.10)
Из формулы (2.10) следует, что коэффициент эластичности для линейной функции зависит от конкретных значений независимых переменных, включенных в модель. Так как коэффициент эластичности измеряет влияние переменной xj на переменную y, то значения остальных независимых переменных принято фиксировать на их среднем уровне:
Таким образом, при фиксированных значениях других переменных существует целый ряд коэффициентов эластичности по переменной , определяемый областью ее значений. Они называются частными коэффициентами эластичности. Если зафиксировать значение
на среднем уровне, получим средний коэффициент эластичности (или коэффициент эластичности для среднего значения
):
(2.11)
Как следует из МНК для линейной регрессии, выражение в знаменателе (2.11) равно среднему значению зависимой переменной, что позволяет упростить формулу:
Коэффициенты эластичности показывают, на сколько процентов в среднем изменится зависимая переменная при изменении переменной на 1% и значениях других независимых переменных, фиксированных на средних уровнях. Так как величина коэффициента эластичности зависит от выбранного значения независимой переменной, при формулировке вывода следует указывать это значение переменной
и соответствующее ему выровненное значение зависимой переменной.
Рассмотрим средние коэффициенты эластичности для регрессии, полученной в примере 2.1.
Для характеристики силы связи количества занятых и поступления налогов рассчитаем коэффициент эластичности
Следовательно, с изменением количества занятых на 1% от среднего уровня поступление налогов в среднем изменится в ту же сторону на 0,32% своего среднего уровня при неизменном объеме отгрузки в обрабатывающих производствах и производстве энергии.
Коэффициенты эластичности для переменных "объем отгрузки в обрабатывающих производствах" и "производство энергии" рассчитываются и интерпретируются аналогично. Они равны
Сопоставляя полученные коэффициенты эластичности, можно сделать вывод о том, что наиболее сильное влияние на сбор налогов оказывает число занятых.
Другими относительными показателями силы связи являются стандартизованные коэффициенты регрессии. В отличие от коэффициентов эластичности, они рассчитываются только для случая множественной линейной регрессии по формуле
Для примера 2.1 стандартизованные коэффициенты регрессии равны
Стандартизованные коэффициенты регрессии могут быть проинтерпретированы. Величина показывает, на сколько своих средних квадратических отклонений
в среднем изменится зависимая переменная при изменении переменной xj• на одно свое среднее квадратическое отклонение
при фиксированных значениях других переменных, включенных в модель регрессии. Например, при изменении количества занятых на
поступление налогов в среднем изменится в ту же сторону на
при неизменном объеме отгрузки в обрабатывающих производствах и производстве энергии.
Сопоставление стандартизованных коэффициентов регрессии для примера 2.1 приводит к другим, чем по коэффициентам эластичности, выводам о том, какая переменная оказывает более сильное влияние на результативную переменную. В данном случае это , т.е. объем отгрузки в обрабатывающих производствах. Такое изменение в выводах объясняется разным уровнем вариации независимых переменных. Можно показать, что отношение стандартизованных коэффициентов регрессии равно
где – коэффициенты вариации переменных
и
.
Стандартизованные коэффициенты регрессии являются коэффициентами в функции регрессии, построенной на основе стандартизованных переменных – переменных, полученных в результате преобразования исходных данных по формулам
где – і-e значение стандартизованной зависимой переменной;
– i-e значение стандартизованной j-й независимой переменной;
– средние значения переменных– средние квадратические отклонения переменных
/
Уравнение регрессии, включающее стандартизованные переменные, называют уравнением регрессии в стандартизованном масштабе (форме, виде):
(2.12)
где – случайный остаток.
Так как уравнение построено на основе непреобразованных переменных, его еще называют уравнением регрессии в натуральном масштабе.
Особенностью уравнения регрессии в стандартизованном масштабе является отсутствие в нем свободного члена. Это свойство является следствием двух утверждений:
- – среднее значение стандартизованной переменной равно нулю;
- – свободный член уравнения множественной линейной регрессии равен
Таким образом, прямая, построенная на основе уравнения регрессии в стандартизованном масштабе, всегда проходит через начало координат. Этим же свойством обладает уравнение регрессии, построенное на основе центрированных переменных, которые рассчитываются по формулам
(2.13)
При использовании центрированных переменных коэффициенты регрессии и случайные остатки равны коэффициентам регрессии и случайным остаткам уравнения в натуральном масштабе:
(2.14)
На рис. 2.1 дана геометрическая интерпретация МНК для множественной линейной регрессии. Каждую переменную, образующую столбец матрицы X, можно рассматривать как вектор-столбец , где
. Так как векторы
образуют многомерное пространство, изобразить их на рисунке невозможно. Можно, однако, воспользоваться тем, что вектор
(содержащий выровненные значения зависимой переменной) является линейной комбинацией векторов
. На рис. 2.1 это вектор
, лежащий в подпространстве, образованном независимыми переменными, которое называют пространством оценок. Вектор
лежит вне этого подпространства. Для удобства будем считать, что все векторы выходят из точки 0. Тогда начало вектора
также будет исходить из точки 0. При формировании проекции вектора
на пространство оценок наименьшую длину будет иметь перпендикуляр к этому пространству – вектор случайных остатков
. Следовательно, параметры вектора выровненных значений
должны быть подобраны таким образом, чтобы векторы
сформировали прямоугольный треугольник.
Так как вектор ортогонален вектору
, то их произведение равно нулю:
Рис. 2.1. Геометрическая интерпретация ΜΗΚ
Из последнего выражения следует, что вектор параметров а или равен нулю (нулевая проекция, вектор Υ ортогонален векторам X, переменная / не зависит от переменных х), или
Откуда
Таким образом, на основе геометрической интерпретации мы получили ту же формулу для оценки параметров регрессии, что и аналитическим путем.