Регрессионные модели с фиктивными переменными

Выше рассматривались регрессионные модели с постоянной структурой, коэффициенты которых не меняются на всем множестве исходных данных. При этом предполагается, что взаимосвязи между результативной и объясняющими переменными не меняются во время всех наблюдений [2, 29).

Однако в реальных социально-экономических процессах на уровень анализируемого результативного показателя кроме объясняющих переменных, включенных в модель, обычно влияет большое число сопутствующих качественных факторов, что приводит к изменению характера взаимосвязи между переменными. В таких случаях модели с постоянной структурой являются недостаточно точными, и для анализа прибегают к построению регрессионных моделей с переменной структурой.

Такие модели позволяют в рамках одной модели учитывать скачкообразные изменения значений коэффициентов регрессии. Обычно сопутствующие переменные носят качественный характер. Например, на потребление населением газированной воды оказывает влияние качественная сопутствующая переменная – "сезонность". При анализе расходов на продукты питания необходимо учитывать различия в образе жизни городского и сельского населения, например с помощью переменной "тип поселения": областной центр, город, село.

Для оценки коэффициентов регрессии, на которые оказывают влияние сопутствующие переменные, в регрессионную модель вводят так называемые фиктивные переменные, принимающие только два значения: 0 или 1. Фиктивной называют переменную, которая равна единице для одной части выборочной совокупности и нулю – для оставшейся части. Возможна проверка гипотезы о наличии или отсутствии влияния сопутствующей переменной на структуру модели.

Рассмотрим особенности применения фиктивных переменных на примере регрессионных моделей зависимости заработной платы работника от трудового стажа, уровня образования, пола и места его проживания:

где In yj – натуральный логарифм заработной платы /-го работника, имеющего 5,-й уровень образования, трудовой стаж г, и обладающего такими качественными факторами г;, влияющими на заработную плату, как профессия, пол, регион и т.д.; е,- – случайная ошибка.

Дополнение модели прочими факторами г,-позволяет учесть статистически значимые различия в уровне заработной платы работников различных профессий, мужчин и женщин, проживающих в разных городах. Так как большинство таких факторов носит качественный характер, то их удобно анализировать с помощью фиктивных переменных.

Если прочие факторы г, зафиксировать на постоянном уровне, т.е. принять, что Zj = г для всех г = 1, 2,..., п, то получим однородную в регрессионном смысле совокупность и следующую модель регрессии:

Свободный член соответствует логарифму среднего заработка работника без образования и стажа работы, т.е. практически содержательного смысла не имеет. Коэффициент Р, показывает, насколько в среднем увеличивается заработная плата при увеличении времени обучения на 1 год. Расширим модель за счет качественных факторов, чтобы сравнить в рамках выбранной профессиональной группы среднюю заработную плату женщин и мужчин в предположении, что соотношение заработков не зависит от уровня образования и трудового стажа работников.

Выберем женщин в качестве "эталонной категории". Определим фиктивную переменную d, значения которой равны нулю, если респондент – женщина и единице – если мужчина:

Тогда матрица X независимых переменных будет иметь вид

Элементы второго столбца матрицы X содержат значения переменной (1, равные нулю для женщин и единице – для мужчин.

В регрессионной модели

(4.55)

коэффициент otj отражает различия в логарифме заработной платы мужчин и женщин. Положительный знак коэффициента а, означает, что средний заработок выше у мужчин, а отрицательный – у женщин.

Разумеется, можно поступить наоборот, выбрав в качестве эталонной категории мужчин и определив переменную d

Тогда регрессионная модель будет:

Коэффициент aj, так же как и а,, будет отражать различия в логарифме заработной платы мужчин и женщин. Очевидно, что оба подхода эквивалентны и a, = -aj. Для того чтобы выяснить, имеются ли различия в заработной плате у мужчин и женщин, необходимо с помощью f-критерия проверить гипотезу Н0: а, = 0 (или Н0: а[ = 0).

Заметим, что выполняется равенство d, + d' = 1. Если мы хотим включить в уравнение обе переменные d и d', то, чтобы избежать строгой мультиколлинеарности, из уравнения необходимо исключить свободный член Од, коэффициент при котором также равен единице:

В этом случае матрица независимых переменных будет иметь вид

В такой записи at и aj характеризуют соответственно логарифм заработной платы мужчин и женщин без образования и стажа. Гипотеза об отсутствии гендерных различий формулируется в видеЕе можно проверить с помощью /-'-критерия.

Если различие в средней заработной плате мужчин и женщин изменяется в зависимости от их образования, то это означает, что коэффициенты при переменной 5 не одинаковы для мужчин и женщин. Например, увеличение уровня образования на 1 год приводит к большему повышению заработной платы у женщин (рис. 4.5).

Пример зависимости заработной платы от образования

Рис. 4.5. Пример зависимости заработной платы от образования

Для описания такого процесса в модель вводят дополнительную переменную dsj, являющуюся произведением двух переменных d, и S). Для мужчин d = 1 и ds = s. Для женщин d = 0 и ds = 0, следовательно:

Переменные, полученные путем перемножения с фиктивными, обычно называют перекрестными фиктивными переменными или перекрестными дамми.

Получим регрессионную модель

(4.56)

Так как для женщин переменные с/, и ds, равны нулю, то для них регрессионная модель имеет вид

(4.57)

Отдача от образования равна р,, т.е. продолжение обучения на 1 год приводит к увеличению заработной платы в среднем на Р, процентов.

Для мужчин получим

(4.58)

Отдача от образования соответствует сумме коэффициентов при переменных Sj и ds^ т.е. р, + P j.

Если оценка Ь3 коэффициента Р3 незначимо отличается от нуля, то гипотеза Н0: Р3 = 0 о том, что закономерности изменения заработной платы с уровнем образования для мужчин и женщин одинаковы, не отвергается, иначе – отвергается.

Гипотеза о том, что никаких различий в заработной плате мужчин и женщин нет, для модели (4.57) формулируется как Я0: а( = 0 и р3 = 0. Ее можно проверить с помощью F-критерия, используя методику сопоставления сумм квадратов остатков для "короткой" (restricted) регрессии (4.57) и "длинной" (unrestricted) регрессии (4.58). Для этого необходимо выполнить следующие шаги:

  • 1) найти сумму квадратов остатков для модели (4.58);
  • 2) найти сумму квадратов остатков для модели (4.57);
  • 3) рассчитать значение FHa6л:

(4.59)

где Q™ – сумма квадратов остатков для "длинной" модели; Q£t – сумма квадратов остатков для "короткой" модели; q – число ограничений (q = 2); и – объем выборки; k – число переменных в "длинной" модели = 4). Наблюдаемое значение сравнивают с критическим значением, найденным по таблицам распределения Фишера – Снедекора для выбранного уровня значимости а и чисел степеней свободы Vj = q и v2 = п – к – 1.

Достаточно часто качественные объясняющие переменные принимают не два, а т значений. Рассмотрим для иллюстрации переменную "регион" при т = 5:

Очевидно, что существуют региональные различия в оплате труда, но учесть их просто включением в модель номера региона нельзя, поскольку различия в заработках не пропорциональны номеру региона в перечне.

Образуем пять фиктивных переменных:

Включать в уравнение регрессии все т фиктивных переменных не следует, так как это приводит к строгой мультиколлинеарности. Один из регионов (любой) следует выбрать в качестве эталонного, например Москву. Тогда в уравнение регрессии (4.56) следует ввести только переменные г,, г2, г3 и г4. Модель, учитывающая региональные различия пяти городов, примет вид

(4.60)

Рассмотрим смысл коэффициентов регрессии при переменных г,, г2, 'з и г4. Коэффициент а2 отражает разницу в средней оплате труда между текущим и эталонным городами (Пензой и Москвой). Средняя оплата труда выше (ниже) в Пензе, чем в Москве, на а2 процентов. Аналогично интерпретируются коэффициенты а3, а,, а5. Величины и знаки коэффициентов при фиктивных переменных зависят от того, какой регион выбран в качестве базового, но характеристики уравнения в целом (сумма квадратов остатков, коэффициент детерминации) не меняются при смене эталонного региона.

Различие в средней оплате труда между другими городами, например между Пензой и Саранском, находится как разность коэффициентов при соответствующих фиктивных переменных: а2 – а3.

Обсудим, как проверить значимость региональных различий.

Если региональные различия отсутствуют, то верна модель (4.55), иначе – модель (4.60). Гипотезу Нп: сс2 = % = а4 = а5 = 0 можно проверить техникой "короткой" – "длинной" регрессии, вычислив статистику (4.59).

Гипотеза Н0 а4 = 0 означает проверку предположения о том, что разница между заработной платой Москвы и Санкт-Петербурга статистически незначима. Соответственно, Н0: а2 = 0 – разница между Пензой и Москвой и т.п. Эти гипотезы можно проверить с помощью f-критерия.

Гипотеза Н0: а3 = а.А означает, что средние заработные платы в Саратове и Санкт-Петербурге одинаковы, она проверяется с помощью /"'-критерия.

Очевидно, что не только средняя оплата труда, но и отдача от образования может зависеть от региона. Проверить такое предположение можно с помощью перекрестных дамми, введя в модель переменные rts, r2s, r3s, rAs.

Таким образом, если качественные переменные принимают т значений, в модель следует включать т – 1 переменную. Тот уровень, для которого фиктивная переменная не образована, тем самым принимается за эталонный. Коэффициенты при фиктивных переменных будут показывать отличия текущего уровня от эталонного.

Иногда фиктивную переменную вводят на основе количественной переменной. Многие временные ряды, характеризующие динамику изменения количественного показателя, содержат момент скачкообразного изменения тенденции (рис. 4.5).

Пример скачкообразного изменения тенденции

Рис. 4.6. Пример скачкообразного изменения тенденции

Допустим, в точке t0 произошло скачкообразное изменение уровня ряда. Для его учета образуем фиктивную переменную

Если же изменение тенденций характеризуется не только скачком, но и изменением угла наклона, то можно ввести в уравнение перекрестную дамми dtn х t.

В ряде случаев в точке ta меняется лишь угол наклона прямой без разрыва. Например, тенденция изменения среднего заработка может иметь следующий вид (рис. 4.7).

Изменение среднего дохода молодежи в зависимости от возраста

Рис. 4.7. Изменение среднего дохода молодежи в зависимости от возраста

Образуем фиктивную переменную d и перекрестную дамми d'f.

Составим уравнение регрессии:

Если не накладывать никаких ограничений на коэффициенты регрессии, то при переходе через значение "22 года" может иметь место разрыв. Чтобы зависимость была непрерывной, должно выполняться равенство

Подставив это ограничение в исходное уравнение, получим

Фиктивные переменные часто используются для учета сезонного фактора. Если сезонность не учитывать, то она вносит свой вклад в случайный член, в результате чего эффективность оценок коэффициентов регрессии снижается.

Тест Чоу. Пусть совокупность состоит из двух подвыборок. Допустим, что число наблюдений в первой подвыборке равно я,, во второй – я2. У нас есть альтернатива: объединить подвыборки и оценивать одну объединенную регрессию или строить отдельные регрессии для каждой подвыборки.

Запишем модель регрессии для каждой из частей совокупности:

Если коэффициенты регрессии в обеих частях достаточно близки, то их можно считать регрессионно однородными и рассматривать не два отдельных уравнения, а одно общее уравнение, рассчитанное по совокупности в целом.

Проверяемая гипотеза имеет вид

Г. Чоу (G. Chow) предложил тест для проверки гипотезы Н0. Рассчитываются суммы квадратов остатков для регрессий подвыборок Q'„-T, Q,"T и по объединенной выборке Q?„- Равенство Q,".T =ООысг+СОысг будет иметь место только при совпадении коэффициентов регрессии для регрессии объединенной выборки и регрессий подвыборок. При разделении выборки наблюдается улучшение адекватности уравнения, т.е. снижение остаточной вариации, что можно представить как Q]J.T – (i'XT -Q,"r. Здесь используются к + 1 дополнительных степеней свободы, так как вместо к + 1 параметров для одной объединенной регрессии мы теперь должны оценить в сумме 2к + 2 параметров – число объясняющих переменных, единица соответствует постоянному члену). После разделения выборки, однако, остается необъясненная сумма квадратов остатков Q,',CT + Q,".T и, кроме того, п -2к -2 степеней свободы.

Для того чтобы определить, является ли значимым улучшение качества уравнения после разделения выборки, используется F-статистика

которая имеет распределение Фишера с к + 1 и п – 2к – 2 степенями свободы.

Идея теста Чоу тесно связана с методикой регрессионного анализа с фиктивными переменными. В самом деле, введем переменную d, равную нулю для первой части выборки и единице – для второй. Рассмотрим модель, включающую все перекрестные дамми:

При d = 0 получаем уравнение регрессии для первой части выборки, при d = 1 – для второй. И формула теста Чоу может быть получена из статистики (4.59).

Тест Чоу может применяться, например, для выявления стабильности тенденции временного ряда, когда, начиная с некоторого момента {*, происходит изменение характера динамики изучаемого показателя, что приводит к изменению параметров тренда, описывающего эту динамику. Момент времени t* сопровождается, например, началом крупных экономических реформ, нефтяным кризисом, изменением экономического курса и пр.

 
< Пред   СОДЕРЖАНИЕ     След >