Оценка значимости множественной регрессии. Коэффициенты детерминации R2 и R2

Как и в случае парной регрессионной модели (см § 3.6), в модели множественной регрессии общая вариация Q — сумма квадратов отклонений зависимой переменной от средней (3.41) может быть разложена на две составляющие:

где Qr, Qe — соответственно сумма квадратов отклонений, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.

Получим более удобные, чем (3.40), формулы для сумм квадратов 0, Qr и Qe, не требующие вычисления значений у,-, обусловленных регрессией, и остатков е,.

В соответствии с (3.40), (3.42)

(ибо

С учетом (4.4) имеем

(ибо в силу (4.5) b'X’Xb = b'XY).

Уравнение множественной регрессии значимо (иначе — гипотеза Но о равенстве нулю параметров регрессионной модели, т. е. Но: Pi = Р2 =...= рр= 0, отвергается), если (учитывая (3.43) при т = р + 1)

где Fa.p.n_p_ j— табличное значение /^критерия Фишера—

Снедекора, a Qr и Qe определяются по формулам (4.31) и (4.30).

В § 3.6 был введен коэффициент детерминации R2 как одна из наиболее эффективных оценок адекватности регрессионной модели, мера качества уравнения регрессии, характеристика его прогностической силы.

Коэффициент детерминации (или множественный коэффициент детерминации) Л2 определяется по формуле (3.47) или с учетом (4.31), (4.29):

Отмстим еще одну формулу для коэффициента детерминации:

или

где е

=Y—Xb, Y = (j>,y,...,y), д> = (к-у) — д-мерные векторы;

Напомним, что R2 характеризует долю вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющих переменных; чем ближе R2 к единице, тем лучше регрессия описывает зависимость между объясняющими и зависимой переменными.

Вместе с тем использование только одного коэффициента детерминации R2 для выбора наилучшего уравнения регрессии может оказаться недостаточным. На практике встречаются случаи, когда плохо определенная модель регрессии может дать сравнительно высокий коэффициент R2.

Недостатком коэффициента детерминации R2 является то, что он, вообще говоря, увеличивается при добавлении новых объясняющих переменных, хотя это и не обязательно означает улучшение качества регрессионной модели. В этом смысле предпочтительнее использовать скорректированный (адаптированный, поправленный (adjusted)) коэффициент детерминации R2, определяемый по формуле

или с учетом (4.33")

Из (4.34) следует, что чем больше число объясняющих переменных р, тем меньше R2 по сравнению с R2. В отличие от R2

Л

скорректированный коэффициент R может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенного влияния на зависимую переменную. Однако даже увеличение скорректированного коэффициента детерминации R2 при введении в модель новой объясняющей переменной не всегда означает, что ее коэффициент регрессии значим (это происходит, как можно показать, только в случае, если соответствующее значение /-статистики больше единицы (по абсолютной величине), т. е. |/|>1. Другими словами, увеличение

R1 еще не означает улучшения качества регрессионной модели.

Если известен коэффициент детерминации R2, то критерий значимости (4.32) уравнения регрессии может быть записан в виде:

где k=p, ki=n~p~ 1, ибо в уравнении множественной регрессии вместе со свободным членом оценивается т = р+ параметров.

? Пример 4.4. По данным примера 4.1 определить множественный коэффициент детерминации и проверить значимость полученного уравнения регрессии У по Х и Хг на уровне а = 0,05.

Решение. Вычислим произведения векторов (см. пример 4.1):

ю

и ГУ = ^ у, =496 (см. итоговую строку табл. 4.2). Из табл. 4.2

/=1

10 п

находим также = 68, откуда у - ?>>,?/*? = 68/10 = 6,8 (т).

/=1 /=1

Теперь по (4.33) множественный коэффициент детерминации

Коэффициент детерминации R2=0,811 свидетельствует о том, что вариация исследуемой зависимой переменной Y — сменной добычи угля на одного рабочего на 81,1% объясняется изменчивостью включенных в модель объясняющих переменных — мощности пласта Х и уровня механизации работ Х^.

Проделав аналогичные расчеты по данным примера 3.1 для одной объясняющей переменной Х, можно было получить R'2 =0,751 (заметим, что в случае одной объясняющей переменной коэффициент детерминации R'2 равен квадрату парного коэффициента корреляции г2). Сравнивая значения R2 и R'2, можно сказать, что добаазение второй объясняющей переменной Х± незначительно увеличило величину коэффициента детерминации, определяющего качество модели. И это понятно, так как выше, в примере 4.3, мы убедились в незначимо- сти коэффициента регрессии />2 при переменной Л*

По формуле (4.34) вычислим скорректированный коэффициент детерминации:

при р-1 при р = 2

Видим, что хотя скорректированный коэффициент детерминации и увеличился при добавлении объясняющей переменной Х2, но это еще не говорит о значимости коэффициента />2 (значение /-статистики, равное 1,51 (см. § 4.4), хотя и больше 1, но недостаточно для соответствующего вывода на приемлемом уровне значимости).

Зная /?2=0,811, проверим значимость уравнения регрессии. Фактическое значение критерия по (4.35):

больше табличного /о,05;2;7=4,74, определенного на уровне значимости а =0,05 при кi=2 и Л:2=Ю—2—1=7 степенях свободы (см. табл. IV приложений), т. е. уравнение регрессии значимо, следовательно, исследуемая зависимая переменная К достаточно хорошо описывается включенными в регрессионную модель переменными Х и Xj. ?

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >