Проверка значимости уравнения и коэффициентов регрессии
Для проверки значимости уравнения регрессии используется критерий дисперсионного анализа (Т-критерий). Предполагается,что вектор е имеет п-мерный нормальный закон распределения, т.е.i.
Предварительно рассмотрим вариацию значенийотносительно
(рис. 4.3).
Рис. 4.3. Разложение вариации у, относительно у
Докажем справедливость разложения [2, 5]
(4.40)
где – полная вариация у, относительно среднего
– вариация
относительно
, объясняемая регрессией;
– вариация регрессионных остатков.
Для доказательства справедливости равенства (4.40) преобразуем выражение полной вариации:
Покажем, что удвоенное произведение равно нулю. Введя понятие невязки, будем иметь
так как сумма невязок и
для всех
равна нулю.
В самом деле, вектор невязок можно представить с учетом соотношения (4.31) в виде
Мы доказали равенство нулю удвоенного произведения , а отсюда и справедливость разложения квадратичной формы
Так как при этом число степеней свободы (число независимых слагаемых в квадратичной форме) 0,л,„ равно сумме чисел степеней свободы слагаемыхи
, то в соответствии с теоремой Кохрана о разложении квадратичной формы (см. работу [2]) слагаемые
и
независимы между собой.
Разделив левую и правую часть выражения (4.40) наполучим
(4.41)
Первое слагаемое в правой части полученного равенства есть оценка множественного коэффициента детерминации, так как он характеризует долю вариации у, обусловленную влиянием объясняющих переменных
, включенных в модель. Тогда согласно равенству (4.41) будем иметь
(4.42)
Из формулы (4.42) следует, что. Значение
свидетельствует о максимальной прогностической силе модели, когда по значениям
можно однозначно определить у, так как из условия
следует, что
дня всех
В случае когда, вариация остатков равна полной вариации у и отсутствует линейная зависимость между у и переменными
Покажем, что в случае линейной зависимости между у и объясняющими переменнымисовпадают статистики критериев для проверки нулевых гипотез
и
Преобразуем с учетом равенств (4.41) и (4.42) статистику для проверки гипотезы о значимости коэффициента детерминации ():
(4.43)
Мы получили в итоге статистику для проверки гипотезы о значимости уравнения регрессии (). Статистика
при выполнении гипотезы
имеет /-'-распределение с числами степеней свободы числителя
и знаменателя
Гипотеза //0 не отвергается, еслибудет меньше критического значения
I, найденного по таблице/-'-распределения для уровня значимости а и чисел степеней свободы
и
. Если уравнение регрессии незначимо, т.е. все коэффициенты регрессии для генеральной совокупности равны нулю, то на этом анализ уравнения регрессии заканчивается.
Гипотезаотвергается с вероятностью ошибки а, если Е]1а6, будет больше критического значения
, найденного по таблице /•'-распределения. Из этого следует, что
, т.е. хотя бы один коэффициент регрессии не равен нулю. В этом случае решается задача проверки значимости отдельных коэффициентов регрессии и построения интервальных оценок для значимых коэффициентов.
Значимость коэффициентов регрессии, т.е. гипотезу, проверяют с помощью /-критерия, основанного на статистике
(4.44)
где l = j +1, которая при выполнении гипотезы Р; = 0 имеет (-рас- пределение с числом степеней свободы v = п – k – 1. Гипотеза Нп:=0 отвергается с вероятностью ошибки а, если по tj по модулю больше критического значения, из чего следует, что (3, * 0 и X: следует включать в модель. Если же |^| < (кр, то гипотеза Нп не отвергается и Xj по статистическому критерию ие следует включать в модель. Таким образом, проверив значимость всех коэффициентов регрессии, мы получим т значимых и к – т незначимых коэффициентов регрессии. Используя пошаговые алгоритмы регрессионного анализа последовательного включения или исключения переменных, получаем уравнение регрессии со всеми значащими коэффициентами.