Однофакторный дисперсионный анализ

Однофакторная дисперсионная модель имеет вид

где Xjj — значение исследуемой переменной, полученной на г-м уровне фактора (г = 1, 2,..., т) су-м порядковым номером (j- 1,2,..., п); /у — эффект, обусловленный влиянием г-го уровня фактора; е^. — случайная компонента, или возмущение, вызванное влиянием неконтролируемых факторов, т.е. вариацией переменной внутри отдельного уровня.

Под уровнем фактора понимается некоторая его мера или состояние, например, количество вносимых удобрений, вид плавки металла или номер партии деталей и т.п.

Основные предпосылки дисперсионного анализа.

1. Математическое ожидание возмущения ?(/- равно нулю для любых i, т.е.

  • 2. Возмущения взаимно независимы.
  • 3. Дисперсия возмущения (или переменной Ху) постоянна для любых ij> т.е.

4. Возмущение е# (или переменная Ху) имеет нормальный закон распределения N(0; а2).

Влияние уровней фактора может быть как фиксированным, или систематическим (модель I), так и случайным (модель II).

Пусть, например, необходимо выяснить, имеются ли существенные различия между партиями изделий по некоторому показателю качества, т.е. проверить влияние на качество одного фактора — партии изделий. Если включить в исследование все партии сырья, то влияние уровня такого фактора систематическое (модель I), а полученные выводы применимы только к тем отдельным партиям, которые привлекались при исследовании; если же включить только отобранную случайно часть партий, то влияние фактора случайное (модель II). В многофакторных комплексах возможна смешанная модель III, в которой одни факторы имеют случайные уровни, а другие - фиксированные.

Рассмотрим эту задачу подробнее. Пусть имеется т партий изделий. Из каждой партии отобрано соответственно пЛ, п2,пт изделий (для простоты полагаем, что щ = п2=... = пт = п). Значения показателя качества этих изделий представим в виде матрицы наблюдений

Необходимо проверить существенность влияния партий изделий на их качество.

Если полагать, что элементы строк матрицы наблюдений — это численные значения (реализации) случайных величин Xt, Х2,..., Хт, выражающих качество изделий и имеющих нормальный закон распределения с математическими ожиданиями соответственно av а2, ..., ат и одинаковыми дисперсиями а2, то данная задача сводится к проверке нулевой гипотезы #0: av = a2l = ... = ат,осуществляемой в дисперсионном анализе.

Обозначим усреднение по какому-либо индексу звездочкой (или точкой) вместо индекса, тогда средний показатель качества изделий г’-й партии, или групповая средняя для г-го уровня фактора, примет вид

а общая средняя

Рассмотрим сумму квадратов отклонений наблюдений от общей средней х„:

или Q = Q, + Q2 + ?>з Последнее слагаемое

я . _ ,

так как сумма отклонений значений переменной от ее средней, т.е. ? 1.гу - х) равна нулю. )

Первое слагаемое можно записать в виде

В результате получим следующее тождество:

т п . _

где Q = Y, X [хij _х„, I2общая, или полная, сумма квадратов отклонений; 7=1

т

Q, - n^[xi,-x„)2 — сумма квадратов отклонений групповых средних

i=i

от общей средней, или межгрупповая (факторная) сумма квадратов отклонений;

Q2 - X Xxij ~xi*)2 ~ сумма квадратов отклонений наблюдений от груп- '=17=1

повых средних, или внутригрупповая (остаточная) сумма квадратов отклонений.

В разложении (11.8) заключена основная идея дисперсионного анализа. Если поделить обе части равенства (11.8) на число наблюдений, то получим рассмотренное выше правило сложения дисперсий (8.12).

Применительно к рассматриваемой задаче равенство (11.8) показывает, что общая вариация показателя качества, измеренная суммой Q, складывается из двух компонент — Qx и Q2, характеризующих изменчивость этого показателя между партиями (Qj) и изменчивость «внутри» партий (Q2), характеризующих одинаковую (по условию) для всех партий вариацию под воздействием неучтенных факторов.

В дисперсионном анализе анализируются не сами суммы квадратов отклонений, а так называемые средние квадраты, являющиеся несмещенными оценками соответствующих дисперсий, которые получаются делением сумм квадратов отклонений на соответствующее число степеней свободы.

Напомним, что число степеней свободы определяется как общее число наблюдений минус число связывающих их уравнений. Поэтому для среднего квадрата sf, являющегося несмещенной оценкой межгрунповой дисперсии, число степеней свободы kx = т - 1, так как при его расчете используются т групповых средних, связанных между собой одним уравнением (11.5). А для среднего квадрата являющегося несмещенной оценкой внутригрупповой дисперсии, число степеней свободы k2= тп - т, ибо при ее расчете используются все тп наблюдений, связанных между собой т уравнениями (11.4). Таким образом, sf= Q/(m - 1); s%= Q2/(mn - m).

Найдем математические ожидания средних квадратов л*2 и s2, подставив в их формулы выражение Ху (11.1) через параметры модели.

m

(ибо M -F*)(e/*-e**) =0 с учетом свойств математического ожи-

i=1

дания, а

Схему дисперсионного анализа представим в виде таблицы (табл. 11.1).

Таблица 11.1

Компоненты

дисперсии

Сумма

квадратов

Число степеней свободы

Средний

квадрат

Математическое ожидание среднего квадрата

Меж-

груп-

повая

Q =n'?[Xj,-X„) i=1

т - 1

  • 52-
  • 1 т-1

^гМ-Ф

, . Tti’ 1 »—1

М(*2 = 2 / Л

' 1 > -КУ2 (модель I) n<52F +02 (модель II

Внутригрупповая

Q2 = XE(^-^)

'=17=1

тп - т

s2 -

тп-т

М(х|) = а2

Общая

т п 2

q=xx(*,>•-*«) >=1>1

тп - 1

Для модели 1с фиксированными уровнями фактора F, (г = 1, 2,..., т) — величины неслучайные, поэтому

Гипотеза Я0 примет вид (г = 1,т.е. влияние всех уровней фактора одно и то же. В случае справедливости этой гипотезы

M(s2) = M(s2) = a2.

Для случайной модели II слагаемое Ft в выражении (11.1) — величина случайная. Обозначая ее дисперсию

o2f = M /(w-l) , получим из (11.9)

.1=1

и, как и в модели I, М (s|) = о2. В случае справедливости нулевой гипотезы //0, которая для модели II принимает вид a2F = 0, имеем: М (s2) = М (,v|) = сг2. Итак, в случае однофакторного комплекса как для модели I, так

и модели II средние квадраты s2 и s2 являются несмещенными и, как

можно показать, независимыми оценками одной и той же дисперсии а2.

Следовательно, проверка нулевой гипотезы #0 свелась к проверке суще- ственности различия несмещенных выборочных оценок sf и .vf дисперсии ст2, рассмотренной в параграфе 10.5.

Гипотеза П0 отвергается, если фактически вычисленное значение сга- s2

тистики F = -j больше критического Fa^k2 , определенного на уровне зна-

чимости а при числе степеней свободы k2 = тп - т, и принимается, если F - ^ак{ к2

Применительно к данной задаче опровержение гипотезы Н0 означает наличие существенных различий в качестве изделий различных партий на рассматриваемом уровне значимости.

Замечание. Для вычисления сумм квадратов Qu Q2, Q часто бывает удобно использовать следующие формулы:

т.е. сами средние, вообще говоря, находить не обязательно.

О Пример 11.1. Имеются четыре партии сырья для текстильной промышленности. Из каждой партии отобрано по пять образцов и проведены испытания на определение величины разрывной нагрузки. Результаты испытаний приведены в табл. 11.2.

Таблица 11.2

Номер партии

Разрывная нагрузка (кг/см2)

1

200

140

170

145

165

2

190

150

210

150

150

3

230

190

200

190

200

4

150

170

150

170

I—ь- 00 о

Необходимо выяснить, существенно ли влияние различных партий сырья на величину разрывной напэузки. Принять а = 0,05.

Решение. Имеем т = 4, п = 5. Найдем средние значения разрывной нагрузки для каждой партии по формуле (11.4):

и аналогично

Среднее значение разрывной нагрузки всех отобранных образцов по формуле (11.5):

(или, иначе, через групповые средние,

Вычислим суммы квадратов отклонений по формулам (11.6), (11.7):

Соответствующее число степеней свободы для этих сумм т - 1=3; тп- т = 5 • 4 - 4 = 16; тп -1=5-4-1 = 19.

Результаты расчета сведем в табл. 11.3.

Таблица 11.3

Компоненты

дисперсии

Суммы

квадратов

Число степеней свободы

Средние

квадраты

Межгрупповая

4980

3

1660,0

Внутригрупповая

7270

16

454,4

Общая

12 250

19

Фактически наблюдаемое значение статистики F = -%= = 3,65.

sf 454,4

По табл. VI приложений критическое значение F-критерия Фишера — Сне- декора на уровне значимости а = 0,05 при k{ = 3 и k2= 16 степенях свободы F{0,o5;3;i6 = 3,24. Так как F> fo,05:3;i6> Т() нулевая гипотеза отвергается, т.е. на уровне значимости а = 0,05 (с надежностью 0,95) различие между партиями сырья оказывает существенное влияние на величину разрывной нагрузки.

3 а м е ч а н и е. С точки зрения техники вычислений сумм Q{i Q2, Q проще воспользоваться формулами (11.12)—(11.14), не требующими вычисления средних. Так, вычислив

найдем по формулам (11.12), (11.13) и (11.14)

и

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >