Проверка значимости уравнения регрессии. Интервальная оценка параметров парной модели

Проверить значимость уравнения регрессии — значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

Проверка значимости уравнения регрессии производится на основе дисперсионного анализа. В гл. 11 дисперсионный анализ рассмотрен как самостоятельный инструмент (метод) статистического анализа. Здесь же он применяется как вспомогательное средство для изучения качества регрессионной модели.

Согласно основной идее дисперсионного анализа (см. гл. 11) или

где Q — общая сумма квадратов отклонений зависимой переменной от средней, a QR и соответственно сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.

Убедимся в том, что пропущенное в равенстве (13.17) третье слагаемое

п

Q3 =2Yj(yx ~y)iVi ~Ух ) Равн0 нулю. Учитывая уравнение (13.7) и первое 1=1

уравнение системы (12.11), имеем:

Теперь

(с учетом соотношения (13.10)).

Схема дисперсионного анализа имеет вид, представленный в табл. 13.3.

Таблица 13.3

Компоненты

дисперсии

Сумма

квадратов

Число степеней свободы

Средние

квадраты

Регрессия

Остаточная

Общая

п

= Х(у*, 2

7=1

п

0е=Ц(У1-УХ>)2

i=1

/7

Q = ^(yi~y)2

7=1

т - 1 п - т п - 1

_2 _ Ql< SR-^Ti

52 _ О?

п-т

Средние квадраты и s2 (см. табл. 13.3) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленной соответственно регрессией или объясняющей(ими) переменной(ыми) X и воздействием неучтенных случайных факторов и ошибок; т — число оцениваемых параметров уравнения регрессии; п — число наблюдений.

Замечание. При расчете общей суммы квадратов полезно иметь в виду, что

(формула (13.17') следует из разложения

п

1у,

учитывая, что у = —— ).

/2

При отсутствии линейной зависимости между зависимой и объяс- няющей(ими) переменной(ыми) случайные величины s=QR / (т-1) и s2=Qe/(n-m) имеют ^-распределение соответственно ст-1ип-т

степенями свободы, а их отношение — F-распределение с теми же степенями свободы (см. параграф 4.9). Поэтому уравнение регрессии значимо на уровне а, если фактически наблюдаемое значение статистики

где Fajt{ji2 табличное значение /'-критерия Фишера — Снедекора, определенное на уровне значимости а при kx-m - wk2-n - т степенях свободы.

Учитывая смысл величин sf{ и s2, можно сказать, что значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней.

В случае линейной парной регрессии т = 2 и уравнение регрессии значимо на уровне а, если

Выше (параграф 12.6) введен индекс корреляции R (для парной линейной модели — коэффициент корреляции г), выраженный через дисперсии (см. формулу (12.60)). Тог же коэффициент в терминах «сумм квадратов» примет вид

Следует отметить, что значимость уравнения парной линейной регрессии может быть проверена и другим способом, если оценить значимость коэффициента регрессии /;,, что означает проверку нулевой гипотезы о равенстве параметра Р, парной модели (13.2) нулю, т.е. Я0: Р, =0 против альтернативной гипотезы1 Яр Р] Ф 0.

Можно показать, что при выполнении предпосылки 5 регрессионного

b

анализа (с. 407) статистика ? = —-- имеет стандартный нормальный

а*,

закон распределения Щ0; 1), а если в выражении (13.11) для ой) заменить параметр о2 его оценкой s2, то статистика

имеет ^распределение с k = п - 2 степенями свободы. Поэтому коэффициент регрессии Ьх значим на уровне а (гипотеза Я0 отвергается), если

М=-Л>; -х)2 >?]_а.„_2, а доверительный интервал для Р, имеет вид s V /=1

1

Здесь и далее используем двусторонние критерии проверки гипотез.

Для парной регрессионной модели оценка значимости уравнения регрессии по /•-критерию равносильна оценке значимости коэффициента регрессии Ьх либо коэффициента корреляции г по /-критерию (см. параграф 12.5), ибо эти критерии связаны соотношением F = t2. А интервальные оценки для параметра Р, (13.19") — при нормальном законе распределения зависимой переменной и Р(/Л. = Pi (12.51) совпадают.

При построении доверительного интервала для дисперсии возмущений с2 исходят из того, что статистика —— имеет ^-распределение с k = п - 2

а1

степенями свободы. Поэтом}' интервальная оценка для а2 на уровне значимости а имеет вид (см. формулу (9.47)):

|> Пример 13.2. По данным табл. 13.1 оценить на уровне а = 0,05 значимость уравнения регрессии Y по X Найти интервальную оценку для параметров Р, и а2.

ю

Решение. 1-й способ. Выше, в примере 13.1, были найдены ^г/,=68, ю 1=1

Хг/,2 = 496.

Вычислим необходимые суммы квадратов по формулам (13.16),

(13.17):

По формуле (13.18') F=25,2^ 2) = 24,04.

По таблице F-распределения (табл. VI приложений) F005.V8 = 4,20. Так- как F> F0 05;i;8, то уравнение регрессии значимо.

  • 2-й способ. Учитывая, что Ь{ = 1,016, ?(*,•-х)2 = 24,40, s2 = 1,049 (см.

пример 13.1, табл. 13.2), по формуле (13.19') /= !’^^-J24,40 =4,90.

VI, 049

По таблице ^-распределения (табл. IV приложений) ?q,95;8 = 2,31. Так как t > ^о,95;8’то коэффициент регрессии, а значит, и уравнение парной линейной регрессии Y по X значимы. Оба способа оценки значимости уравнения парной регрессии равносильны, ибо F=t2 (24,40 = 4,902).

Найдем 100 (1 - а) = 95%-ный доверительный интервал для параметра pt. По формуле (13.19")

или 0,537 < Pj < 1,495, т.е. с надежностью 0,95 при изменении мощности пласта X на 1 м суточная выработка Y будет изменяться на величину, заключенную в интервале от 0,537 до 1,495 (т).

Найдем 95%-ный интервал для параметра сг.

Учитывая, что а = 1 - 0,95 = 0,05, найдем по табл. V приложений Х«/2;и-2= = Хо,025:8= 17-53; Xi-a/2;n-2=Xo,975;8 = 218' По Формуле (13.20)

Таким образом, с надежностью 0,95 дисперсия возмущений заключена в пределах от 0,599 до 4,81, а их стандартное отклонение — от 0,774 до 2,19 (т). ?

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >