Разложение суммы квадратов и проверка значимости уравнения регрессии

После того как найдено уравнение парной регрессии, необходимо провести его проверку на значимость, т.е. установить, соответствует ли математическая модель, выражающая зависимость между переменными, наблюдаемым процессам или явлениям. Оценка значимости уравнения регрессии может проводиться с помощью F-критерия Фишера [19, 28]. Непосредственному расчету F-критерия предшествует анализ дисперсии отклика. При этом основная роль отводится разложению общей суммы квадратов отклонений переменной у от среднего значения у на две части — «объясненная» и «необъясненная (остаточная)».

Общая сумма квадратов

характеризует величину разброса значений зависимой переменной. Этот разброс может быть вызван, с одной стороны, изменениями входных факторов, а с другой — случайными воздействиями или неучтенными в модели факторами. Если неучтенных факторов нет и случайные воздействия отсутствуют, то все изменения отклика должны объясняться моделью.

Для того чтобы выделить объясненную и необъяснен- ную части, подставим в общую сумму квадратов очевидное тождество

В результате получим

Далее будем предполагать, что в модели парной регрессии обязательно присутствует свободный член 0О, тогда в силу специфических свойств вектора остатков [19] последнее слагаемое обращается в ноль, т.е.

Поэтому справедливо следующее равенство:

Введем обозначения:

общая сумма квадратов (total sum of

squares);

остаточная сумма квадратов, называемая иногда суммой квадратов остатков (error sum of squares);

— сумма квадратов, обусловленная регрессией, или объясненная сумма квадратов (regression sum of squares)[.

В результате получим

Из разложения сумм квадратов (3.26) может быть получено разложение для дисперсий [84J:

где D(y) — полная дисперсия зависимой переменной у; D(y) — объясненная дисперсия или дисперсия расчетных значений у; D(y-y)— остаточная или необъясненная дисперсия.

Зная все три суммы квадратов, можно делать некоторые предварительные выводы о качестве регрессионного уравнения. Например, если остаточная сумма квадратов намного превышает объясненную, то это говорит о том, что остатки регрессии очень велики. Такая ситуация может свидетельствовать либо о вычислительных ошибках, либо о том, что построенная регрессионная модель плохо описывает данные. Если же [1]

остаточная сумма квадратов много меньше объясненной, то это говорит о малых остатках и хорошем качестве модели.

Однако такой анализ является поверхностным и не лишен субъективизма. Для объективной оценки качества регрессионного уравнения необходимо использовать некоторые специальные критерии.

На практике для этой цели чаще всего применяется универсальный показатель качества прогноза, осуществляемого по модели парной регрессии, называемый коэффициентом детерминации и определяемый как

причем из выражения (3.27 а) следует, что

Очевидно, что коэффициент детерминации может принимать значения из отрезка [0,1 ]. Равенство нулю этого коэффициента будет говорить о том, что знание величины объясненной переменной х не дает никакой информации, позволяющей объяснить значения отклика у. Однако если исследуемая зависимость у = /(х) = const, то D(e) = 0 и, следовательно, TV = 1.

На практике истинное значение IV, как правило, неизвестно. Поэтому для оценки качества уравнения регрессии используется его выборочный аналог[2], вычисляемый по формуле

Величина (3.28) показывает долю объясненной дисперсии в общей дисперсии зависимой переменной и может

о

принимать значения в диапазоне 0 < R < 1.

Если R2 = 0, то это означает, что общая сумма квадратов равна остаточной, т.е. уравнение регрессии совершенно не объясняет изменения зависимой переменной.

Если R2 = 1, то общая сумма квадратов равна объясненной и все наблюдаемые точки лежат точно на линии регрессии, а все остатки — нулевые. {{Заметим, что в эконометрической литературе (например, в [4, 41,76]) величины V} и К[2] часто подменяются друг другом. Чтобы избежатьподобной коллизии, будем называть V} «истинным значением коэффициента детерминации», a R2 — «коэффициентом детерминации».}}

1

Чем ближе значение коэффициента детерминации к единице, тем более точно уравнение регрессии описывает данные. Однако, зная только конкретное значение коэффициента детерминации, нельзя делать никаких однозначных выводов о пригодности уравнения к практическому использованию. В зависимости от ситуации значимыми могут признаваться уравнения с коэффициентом детерминации, равным 0,87, и уравнения, коэффициент детерминации которых равен 0,33. Для того чтобы четко определять пригодность уравнения регрессии в каждом конкретном случае, необходима формальная проверка на значимость.

Значимость регрессионного уравнения можно проверять с помощью статистической гипотезы, например, относительно величины истинного коэффициента детерминации

Проверка этой гипотезы может проводиться с помощью ^-критерия. Этот критерий опирается на тот факт, что отношение объясненной дисперсии зависимой переменной к остаточной дисперсии подчиняется распределению Фишера. Поскольку на практике истинные значения этих дисперсий остаются неизвестными, то приходится их оценивать с помощью соответствующих сумм квадратов отклонений.

Любая сумма квадратов отклонений связана с так называемым числом степеней свободы, которое зависит от количества наблюдений N и числа определяемых по ним величин. Применительно к общей сумме квадратов число степеней свободы показывает, сколько независимых отклонений из N возможных

требуется для вычисления данной суммы квадратов. Наличие известного среднего значения у дает нам возможность произвести вычисление TSS, используя только (N- 1) независимых отклонений. Например, имеем пять наблюдений:

среднее значение у = 3. Отклонения от среднего будут равны соответственно

Так как , то свободно изменяться могут

только четыре отклонения, а оставшееся всегда может быть выражено через них. Таким образом, число степеней свободы общей суммы квадратов равняется (N - 1).

Аналогичным образом можно показать, что число степеней свободы остаточной суммы квадратов равно (N - 2), а число степеней свободы объясненной суммы квадратов равно единице.

В качестве оценок полной, остаточной и объясненной дисперсий используются отношения соответствующих сумм квадратов к своим числам степеней свободы:

Если сравнить соотношения (3.10) и (3.31), то можно заметить, что дисперсия случайной ошибки и остаточная дисперсия оцениваются одинаковым образом.

Из математической статистики [28, 84] известно, что величина

подчиняется распределению Фишера с 1-й и (А - 2) степенями свободы. При проверке гипотезы (3.29) вычисленное но формуле (3.33) значение Е-статистики сравнивают с критическим значением Екр(1 - а, 1, N- 2). Критическое значение jF-статистики — это максимальная величина отношения дисперсий, которая для заданного уровня доверительной вероятности (1 - «) может иметь место при случайном отклонении от нулевой гипотезы. Это значение определяется по специальным статистическим таблицам [3] (см. приложение).

Если оказывается, что F> F (1 - а, 1, N - 2), то гипотеза (3.29) отвергается, и уравнение регрессии признается значимым, т.е. пригодным для практического использования.

Если оказывается, что F< F ( 1 - а, 1, N - 2), то гипотеза (3.29) не отвергается, и уравнение регрессии не признается значимым.

В случае парной линейной регрессии коэффициент детерминации равен квадрату парного коэффициента корре-

9 9

ляции R~ = г . Также имеет место связь между статистикой Фишера и R2 [28]:

  • [1] К сожалению, эти сокращения не являются общепринятыми. В некоторых литературных источниках первое слагаемое в правой части (3.26)обозначается через RSS (residual sum of squares), а второе — через ESS(iexplained sum of squares).
  • [2] 2 Заметим, что в эконометрической литературе (например, в [4, 41,76]) величины V} и К1 часто подменяются друг другом. Чтобы избежатьподобной коллизии, будем называть V} «истинным значением коэффициента детерминации», a R2 — «коэффициентом детерминации».
  • [3] Заметим, что в эконометрической литературе (например, в [4, 41,76]) величины V} и К{{2 Заметим, что в эконометрической литературе (например, в [4, 41,76]) величины V} и К1 часто подменяются друг другом. Чтобы избежатьподобной коллизии, будем называть V} «истинным значением коэффициента детерминации», a R2 — «коэффициентом детерминации».
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >