Проверка значимости модели множественной регрессии и ее параметров

Для оценки значимости параметров уравнения множественной регрессии используют критерий Стьюдента. Напомним, что значимость параметров означает их отличие от нуля с высокой долей вероятности. Нулевой гипотезой в данном случае является утверждение

Фактическое значение t-критерия определяется по формуле

(2.27)

В формуле (2.27) под оценкой параметра понимается как коэффициент регрессии, так и свободный член (при ). Величина среднего квадратического отклонения оцениваемого параметра определяется как корень из дисперсии , рассчитанной по формуле (2.25). Величину называют стандартной ошибкой параметра .

Формулу для оценки коэффициента регрессии (т.е. для ) можно привести к виду

(2.28)

где – среднее квадратическое отклонение результативной переменной ; – среднее квадратическое отклонение объясняющей переменной , являющейся сомножителем коэффициента ; – коэффициент детерминации, найденный для уравнения зависимости переменной от переменных , включая ; – коэффициент детерминации, найденный для уравнения зависимости переменной от других переменных , входящих в рассматриваемую модель множественной регрессии.

Теоретическое значение t-критерия находят по таблице значений критерия Стьюдента для уровня значимости а и числа степеней свободы . Уровень значимости а представляет собой вероятность ошибки первого рода, т.е. вероятность отвергнуть гипотезу , когда она верна. Как правило, а выбирают равным 0,1; 0,05 или 0,01.

Нулевая гипотеза о незначимости параметра : отвергается, если выполняется неравенство

(2.29)

где – теоретическое значение критерия Стьюдента.

На основе выражения (2.29) можно построить также доверительный интервал для оцениваемого параметра :

(2.30)

Выражение (2.30) позволяет как оценить значимость параметра, так и дать его экономическую интерпретацию (если оценивается коэффициент регрессии). Очевидно, что параметр будет значим, если в доверительный интервал (2.30) не входит нуль, т.е. с большой долей вероятности оцениваемый параметр не равен нулю.

Так как коэффициент регрессии является абсолютным показателем силы связи, границы доверительного интервала и для него также можно интерпретировать аналогичным образом: с вероятностью при единичном изменении независимой переменной зависимая переменная у изменится не меньше, чем на , и не больше, чем на .

Рассмотрим результаты оценки значимости параметров для примера 2.1. Стандартные ошибки параметров равны

Напомним, что под знаком корня в квадратных скобках стоит элемент матрицы , который находится на пересече-

нии j-й строки и j-го столбца, номер; равен номеру оцениваемого параметра.

Фактическое значение критерия Стьюдента равно

Табличное значение t-критерия для и уровне значимостисоставляет 2,0153, следовательно, все параметры, кроме свободного члена, значимы .

Найдем границы доверительных интервалов для коэффициентов регрессии.

Отметим, что, руководствуясь значениями границ доверительных интервалов, можно сделать те же выводы о значимости коэффициентов регрессии (так как нуль не попадает в доверительный интервал). Выводы в данном случае и не могли быть иными, чем при сравнении фактического и табличного значений критерия Стьюдента, так как формула (2.30) является следствием формулы (2.29). Дадим экономическую интерпретацию границ доверительных интервалов для коэффициентов регрессии.

Коэффициент является характеристикой силы связи между объемом поступления налогов и количеством занятых. С учетом значений границ доверительного интервала дляможно сказать, что изменение количества занятых на 1 тыс. человек приведет к изменению (с вероятностью 0,95 ()) поступления налогов не менее чем на 3,56 млн руб. и не более чем на 21,34 млн руб. при неизменном объеме отгрузки в обрабатывающих производствах и производстве энергии. Для двух других коэффициентов регрессии выводы будут следующими.

Изменение объема отгрузки в обрабатывающих производствах на 1 млн руб. приведет к изменению (с вероятностью 0,95 ()) поступления налогов не менее чем на 0,028 млн руб. и не более чем на 0,092 млн руб. при неизменных значениях количества занятых и производства энергии.

При изменении производства энергии на 1 млн руб. поступление налогов изменится (с вероятностью 0,95 ()) не менее чем на 0,13 млн руб. и не более чем на 0,18 млн руб. при неизменных значениях количества занятых и объема отгрузки в обрабатывающих производствах.

Как было отмечено в параграфе 2.2, при построении модели регрессии с использованием центрированных переменных коэффициенты регрессии не отличаются от коэффициентов регрессии в натуральной форме. Это утверждение относится также к величине стандартных ошибок коэффициентов регрессии и, следовательно, к фактическим значениям критерия Стьюдента.

При использовании стандартизованных переменных меняется масштаб их измерения, что приводит к другим, чем в исходной регрессии, значениям параметров (стандартизованных коэффициентов регрессии) и их стандартных ошибок. Однако фактические значения критерия Стьюдента для параметров уравнения в стандартизованном масштабе совпадают с теми значениями, которые были получены по уравнению в натуральном масштабе.

Для оценки значимости всего уравнения регрессии в целом используется критерий Фишера (F-критерий), который в данном случае называют также общим F-критерием. Под незначимостью уравнения регрессии понимается одновременное равенство нулю (с высокой долей вероятности) всех коэффициентов регрессии в генеральной совокупности:

Фактическое значение F-критерия определяется как соотношение факторной и остаточной сумм квадратов, рассчитанных по уравнению регрессии и скорректированных на число степеней свободы:

(2.31)

где – факторная сумма квадратов; – остаточная сумма квадратов.

Теоретическое значение F-критерия находят по таблице значений критерия Фишера для уровня значимости α, числа степеней свободы и . Нулевая гипотеза отвергается, если

где – теоретическое значение критерия Фишера.

Отметим, что если модель незначима, то незначимы и показатели корреляции, рассчитанные по ней. Действительно, если

то

и линия регрессии параллельна оси абсцисс. Кроме того, из системы нормальных уравнений, полученной по методу наименьших квадратов (2.8), следует, что .

При нулевых значения всех коэффициентов регрессии имеем выражение

Тогда

т.е. при равенстве всех коэффициентов регрессии нулю (их статистической незначимости) коэффициент детерминации также будет равен нулю (статистически незначим).

Формулу (2.31) расчета F-критерия можно преобразовать, разделив факторную и остаточную суммы квадратов на общую сумму квадратов:

После простых преобразований получаем выражение

Расчет общего F-критерия можно оформить в виде таблицы дисперсионного анализа (табл. 2.2).

Таблица 2.2. Анализ статистической значимости модели множественной регрессии

Источники вариации

Число степеней свободы df

Сумма квадратов SS

Дисперсия на одну степень свободы MS = SS/df

F-критерий Фишера

фактическое значение

табличное значение для а = 0,05

Общая

Регрес

сия

Оста

точная

Аналогичную таблицу дисперсионного анализа можно увидеть в результатах компьютерной обработки данных. Ее отличие

от приведенной выше таблицы заключается в содержании последнего столбца. В нашем случае это теоретическое значение критерия Фишера. В компьютерных вариантах в последнем столбце приводится значение вероятности допустить ошибку первого рода (отвергнуть верную нулевую гипотезу), которая соответствует фактическому значению F-критерия. В Excel эта величина называется "значимость F". Обозначим величину, выдаваемую компьютером в таблице дисперсионного анализа, как . Ее значение можно проинтерпретировать следующим образом: если теоретическое значение F-критерия равно его фактическому значению, то вероятность ошибки первого рода (уровень значимости) равна .

Выбирая для определения табличного значения критерия некий уровень значимости, мы соглашаемся на величину ошибки, равную. Следовательно, если , то фактическая ошибка будет меньше запланированной и можно говорить о значимости уравнения регрессии при заданном уровне значимости .

Проверим на статистическую значимость уравнение регрессии, полученное в примере 2.1. Фактическое значение F-критерия равно

Табличное значение критерия Фишера для а = 0,05, числа степеней свободы и равно 2,82. Так как фактическое значение F-критерия больше табличного, уравнение регрессии значимо с вероятностью Следовательно, значим также коэффициент детерминации, т.е. он с большой долей вероятности отличен от нуля.

При использовании опции "Регрессия" в ППП Excel для данного примера получена следующая таблица дисперсионного анализа (табл. 2.3).

Таблица 2.3. Таблица дисперсионного анализа, полученная при применении опции "Регрессия" в ППП Excel

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

3

3 652 714 368

1 217 571 456

40,31035571

1,10224Е -12

Остаток

44

1 329 016 902

ЗО 204 929,59

Итого

47

4 981 731 270

Фактическое значение F-критерия содержится в предпоследнем столбце данной таблицы. Отметим, что его значение отличается от приведенного выше из-за ошибок округления. В последнем столбце табл. 2.3 приведена вероятность допустить ошибку первого рода. Она равна 1,10224Е -12, т.е. 0,00000000000110224. Нами задана максимальная величина этой вероятности, равная 0,05. Так как фактическое значение вероятности допустить ошибку первого рода меньше (значительно меньше) установленного нами максимального, нулевая гипотеза о незначимости уравнения регрессии должна быть отвергнута.

 
< Пред   СОДЕРЖАНИЕ     След >