Фиктивные переменные

Особенности включения в модели регрессии неколичественных показателей

В предыдущих главах при рассмотрении уравнений парной и множественной регрессии мы предполагали, что все изучаемые переменные являются количественными, т.е. принимают числовые значения. В общем случае это предположение может не выполняться. Значение зависимой переменной у часто складывается под влиянием факторов, описываемых как количественными, так и неколичественными показателями. Например, на величину надоя с одной фуражной коровы (количественный показатель) оказывает влияние качество кормов – высшее, 1 сорт, 2 сорт (неколичественный показатель). Для отражения влияния неколичественного показателя на результативный признак используют так называемые фиктивные переменные (dummy variables).

Фиктивные переменные – это переменные бинарного типа, имеющие всего два значения – единица и ноль:

Если неколичественный показатель принимает всего два альтернативных значения, то необходимо ввести одну фиктивную переменную. Например, выдвинута гипотеза о разном уровне производительности труда для разных форм собственности – государственной и негосударственной. Тогда каждой форме собственности будет соответствовать одно значение фиктивной переменной. Например:

Возможно и другое закрепление значений фиктивной переменной за категориями неколичественного показателя "форма собственности":

В общем случае необходимо ввести на единицу меньше фиктивных переменных, чем категорий неколичественного показателя. В частности, для приведенного выше примера с качеством кормов (три возможные категории) необходимо ввести две фиктивные переменные.

Фиктивная переменная равна единице, если неколичественный показатель принял закрепленное за этой переменной значение. Значение неколичественного показателя, не закрепленное ни за одной фиктивной переменной, называют базой сравнения значений зависимой переменной при разных состояниях неколичественного фактора. Ей соответствует равенство всех фиктивных переменных нулю:

где k – количество значений неколичественного показателя.

В качестве базового значения неколичественного показателя целесообразно выбирать такое, которое, как предполагается, обеспечивает минимальные или максимальные значения зависимой переменной. Для примера с качеством кормов

базовой категорией можно выбрать "2 сорт" как фактор, дающий минимальные надои коров:

Если в модели регрессии необходимо учесть несколько неколичественных показателей, то для каждого из них вводится свой набор фиктивных переменных. В этом случае фиктивные переменные нумеруются двойным индексом ji: Zjj, где; – номер неколичественного показателя, і – номер значения (категории) ;-го неколичественного показателя.

Спецификация моделей регрессии с фиктивными независимыми переменными

В общем случае модель с фиктивными переменными имеет вид

где у – зависимая переменная; – количественные независимые переменные; zu, z12 – фиктивные переменные, соответствующие категориям первого неколичественного показателя; z2J, z22 – фиктивные переменные, соответствующие категориям второго неколичественного показателя; z;1, z)2 – фиктивные переменные, соответствующие категориям ;-го неколичественного показателя; ε – случайный остаток.

Включение фиктивных переменных в модель расширяет круг вопросов, подлежащих решению на этапе спецификации модели.

Учет влияния неколичественного показателя, принимающего три и более значений, означает необходимость ввода в уравнение регрессии двух и более фиктивных переменных, что приводит к значительному увеличению количества параметров и должно быть подкреплено соответствующим объемом наблюдений (не менее семи на один параметр, не считая свободного члена).

При включении в уравнение регрессии фиктивных переменных возникает также вопрос о характере влияния количественных независимых переменных на результативную переменную при различных значениях неколичественного показателя. Ниже будут рассмотрены различные варианты моделей регрессии с фиктивными переменными.

 
< Пред   СОДЕРЖАНИЕ     След >