Проверка общего качества уравнения регрессии. Коэффициент детерминации R2

Суммарной мерой общего качества уравнения регрессии (соответствия построенного уравнения статистическим данным) является выборочный коэффициент детерминации R2.

Пусть уравнение регрессии имеет вид у{ = Ь0 + фхг, тогда рассчитанные по модели значения у, для наблюдаемых значений х,- равны

Наблюдаемые значения у, отличаются от рассчитанных по модели значений г/, на величину е{. yt - у, +е{. Представим это равенство в виде

Введем обозначения: тогда

Здесь Qt/ — полная сумма квадратов отклонений: мера разброса наблюдаемых значений результирующего признака У относительно среднего значения у; Qr — объясненная сумма квадратов отклонений: мера разброса отклонений, объясненного уравнением регрессии; Q^ — остаточная (необъ- ясненная) сумма квадратов отклонений: мера разброса отклонений, не объясненного уравнением регрессии.

Коэффициент детерминации R2 определяется как доля разброса переменной У, объясняемая регрессией У на X:

Так как

Вывод. Коэффициент детерминации R2 изменяется в пределах 0 < R2 < 1. Если (ф. = 0, то R2 - 1 и все наблюдаемые значения г/, лежат на линии регрессии, т.е. между У и X имеется строгая функциональная зависимость. Если R2 = 0, то регрессия ничего не объясняет. Следовательно, чем ближе R2 к единице, тем лучше уравнение регрессии объясняет наблюдаемые значения.

Связь коэффициента детерминации R2 и выборочного коэффициента корреляции гху для парной линейной регрессии. Для парной линейной регрессии коэффициент детерминации R2 связан с выборочным коэффициентом корреляции гху простым соотношением

Проверка значимости уравнения регрессии. Проверить значимость уравнения регрессии — значит подтвердить соответствие математической модели экспериментальным данным. Проверка общего качества уравнения регрессии проводится с помощью проверки статистической значимости коэффициента детерминации К2.

Введем понятие числа степеней свободы для уравнения регрессии. Число степеней свободы есть мера независимого варьирования переменных. Числом степеней свободы для уравнения регрессии называется величина v = п - k, где п — число наблюдений; k — число оцениваемых в модели параметров. Для случая парной линейной регрессии оцениваем два параметра Ь0 и Ьь поэтому k = 2, а число степеней свободы v = п - 2.

Для общей проверки значимости построенной модели регрессии выдвигаются две гипотезы #0 и Н{

Для проверки основной гипотезы //0 используется ^-статистика (статистика Фишера — Снсдекора)

которая имеет распределение Фишера cv1 = l,v2 = w- 2 степенями свободы (v, — количество объясняющих факторов, от которых зависит Y в уравнении регрессии; v2 — разность между числом наблюдений и числом определяемых параметров модели). Необходимо отметить, что проверка значимости коэффициента корреляции гху проводится с использованием статистики Стыодента, а проверка значимости коэффициента детерминации R2 — с использованием статистики Фишера — Снсдекора.

Отметим, что для обеспечения статистической надежности построенной модели регрессии требуется, чтобы выполнялось соотношение п > 3 +1). Здесь т — число объясняющих переменных в уравнении регрессии. В случае парной регрессии т = 1.

Подставляя в выражение (3.22) полученное но выборке значение R2, вычисляем наблюдаемое значение критерия Гиабл- По таблице критических точек распределения Фишера по заданному уровню значимости а и числам степеней свободы v1 = 1hv2 = w- 2 находится критическая точкаFKp = Fa. 1;п_2.

Сравнивая наблюдаемое значение критерия с критическим, можно принять или отвергнуть гипотезу #0. Если FHaбл > FKp, то нулевая гипотеза отклоняется в пользу гипотезы Н{ и делается вывод о том, что R2 > 0, т.е. R2 и уравнение регрессии статистически значимы. В противном случае принимается гипотеза Я0 и делается вывод о статистической незначимое™ построенного уравнения регрессии.

Пример 3.2

Проверим значимость уравнения регрессии, полученного по данным примера 3.1. Примем уровень значимости а = 0,01.

Решение. Объясненная уравнением регрессии сумма квадратов отклонений

Полная сумма квадратов отклонений Коэффициент детерминации

Столь большая величина коэффициента детерминации показывает, что полученное уравнение регрессии хорошо объясняет наблюдаемые значения.

Для проверки гипотезы о значимости уравнения регрессии используется статистика Фишера.

Выдвигаются гипотезы:

Наблюдаемое значение статистики равно

Критическое значение статистики находим по таблице квантилей распределения Фишера[1] при уровне значимости а = 0,01 и числах степеней свободы Vj = 1 и v2 = п - 2:

^кр = ^а; V,; v2 = ^0,01; 1;8 = ^ Ъ^б.

Так как Тнабл = 99,690 > 11,26 = FKp, то с доверительной вероятностью у = 0,99 гипотеза //0: R[2] = 0 отвергается и принимается альтернативная гипотеза //,: R[2]> 0 (напоминаем, что по определению у + а = 1).

На основании этого делается вывод о статистической значимости уравнения регрессии с доверительной вероятностью у = 0,99.

  • [1] Таблицы основных распределений, применяемых в эконометрическом анализе, при
  • [2] ведены в приложении 2.
  • [3] ведены в приложении 2.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >