Оценка взаимосвязи переменных. Проверка значимости уравнения множественной регрессии

Для оценки взаимосвязи между зависимой переменной и совокупностью объясняющих переменных используется множественный (совокупный) коэффициент (индекс) корреляции (см. параграф 12.6), который может быть выражен через суммы квадратов отклонений по формуле (13.19):

где Q, Qr и Q<, вычисляются по формулам (13.16), (13.17).

Получим более удобную формулу для R, не требующую вычисления

п

остатков е{ и остаточной суммы квадратов Qe = ^ef.

? В соответствии с равенством (13.16) 7=1

13.8. Оценка взаимосвязи переменных. Проверка значимости уравнения.

С учетом условия (13.24') имеем

(ибо в силу равенства (13.25) b'X'Xb = b'X'Y).

Наконец,

Таким образом,

Коэффициент R является обобщением коэффициента корреляции в множественной модели. В зависимости от тесноты связи R может принимать значения от 0 до 1. Величина R2, называемая множественным коэффициентом детерминации, показывает долю вариации зависимой переменной, обусловленную регрессией или изменчивостью объясняющих переменных.

Таким образом, множественный коэффициент детерминации R1 можно рассматривать как меру качества уравнения регрессии, характеристику прогностической силы анализируемой регрессионной модели: чем ближе R1 к единице, тем лучше регрессия описывает зависимость между объясняющими и зависимой переменными.

Недостатком коэффициента детерминации R2 является то, что он, вообще говоря, увеличивается при добавлении новых объясняющих переменных, хотя это и не обязательно означает улучшение качества регрессионной модели. В этом смысле предпочтительнее использовать скорректированный (адаптированный, поправленный) коэффициент детерминации R2, определяемый по формуле

Из формулы (13.44') следует, что чем больше число объясняющих переменных р, тем меньше R2 по сравнению с R2. В отличие от R2 скорректированный коэффициент R2 может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенного влияния на зависимую переменную. Однако даже увеличение скорректированного коэффициента детерминации /?2 при введении в модель новой объясняющей переменной не всегда означает, что ее коэффициент регрессии значим (это происходит, как можно показать, только в случае, если соответствующее значение ^-статистики больше единицы (по абсолютной величине), т.е. |?| > 1). Другими словами, увеличение R2 еще не означает улучшение качества регрессионной модели.

Оценка значимости уравнения множественной регрессии означает проверку нулевой гипотезы о равенстве нулю р параметров множественной модели (13.22), т.е. #0: (3j =(32 =... = (3/; =0 против альтернативной гипотезы Яхотя бы одно Ф 0, ] =1,р.

Критерий значимости любого уравнения регрессии был получен ранее в параграфе 13.3. Если известен коэффициент детерминации R2, то критерий значимости (13.18) уравнения регрессии может быть записан в виде

где kx=p,k2 = n - р - 1, ибо в уравнении множественной регрессии вместе со свободным членом оценивается т = р + 1 параметров.

> Пример 13.7. По данным примера 13.4 определить множественный коэффициент (индекс) корреляции и проверить на уровне а = 0,05 значимость полученного уравнения регрессии У по Х{ и Х2.

Решение. Вычислим произведения векторов (см. пример 13.4):

ю

и У'У = YjU} - 496(см. итоговую строку табл. 13.7). Из табл. 13.7 находим

i=i

10 п

также YjVi =68, откуда у = ^У}/п = 68/10 = 6,8(т).

i=i /=1

Теперь по формуле (13.44) множественный коэффициент (индекс) корреляции

Значение R = 0,900, близкое к 1, указывает на тесную взаимосвязь зависимой переменной У — сменной добычи угля на одного рабочего и объясняющих переменных — мощности пласта Хх и уровня механизации работ Х2. Коэффициент детерминации R2 = 0,811 свидетельствует о том, что вариация исследуемой зависимой переменной на 81,1% объясняется изменчивостью включенных в модель объясняющих переменных.

Проделав аналогичные расчеты по данным примера 13.1 для одной объясняющей переменной Х{> можно было получить R'= 0,866 и R'2= 0,751 (заметим, что в случае одной объясняющей переменной множественный коэффициент корреляции R' равен парному коэффициенту корреляции г). Сравнивая значения R2 и R'2, можно сказать, что добавление второй объясняющей переменной Х2 незначительно увеличило коэффициент детерминации, определяющий качество модели. И эго понятно, так как выше, в примере 13.6, мы убедились в незначимости коэффициента регрессии Ь2 при переменной Х2.

По формуле (13.44') вычислим скорректированный коэффициент детерминации:

при р — R'2 = 1-—(1-0,751)^0,720;

8

при р = 2 R'2 =1-у(1-0,811) = 0,757.

Видим, что хотя скорректированный коэффициент детерминации и увеличился при добавлении объясняющей переменной Х2, но это еще не говорит о значимости коэффициента регрессии Ь2 (значение ?-статистики, равное 1,51 (см. параграф 13.6), хотя и больше единицы, но недостаточно для соответствующего вывода на приемлемом уровне значимости).

Зная R2 = 0,811, проверим значимость уравнения регрессии. Фактическое значение критерия по формуле (13.45)

больше табличного F0 05;2;7 = 4,74, определенного на уровне значимости а = = 0,05 при ^1 = 2и^2 = 10-2 - 1=7 степенях свободы (см. табл. VI приложений), т.е. уравнение регрессии значимо, следовательно, исследуемая зависимая переменная Y достаточно хорошо описывается включенными в регрессионную модель переменными Х{ и Х2. ?

Следует подчеркнуть, что включенные в регрессионную модель объясняющие переменные не должны противоречить теоретическим положениям соответствующей предметной области моделируемого объекта (например, экономической теории). Меняя состав переменных, получаются новые уравнения регрессии. При этом в пользу добавления в модель (исключения из модели) каждой переменной могут свидетельствовать: значимость (незначимость) ее коэффициента регрессии; возрастание скорректированного коэффициента детерминации R2; значительное (незначительное) изменение других коэффициентов регрессии.

Переменная, имеющая веские теоретические основания для включения, должна быть добавлена в модель (или оставлена в ней), даже если это противоречит приведенным выше формальным соображениям. (Об этом уже упоминалось в параграфе 13.7.)

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >