Построение теоретического закона распределения по опытным данным. Проверка гипотез о законе распределения

Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины,

характеризующей изучаемый признак по опытному (эмпирическому) распределению, представляющему вариационный ряд.

Для решения этой задачи необходимо определить вид и параметры закона распределения.

Предположение о виде закона распределения может быть выдвинуто исходя из теоретических предпосылок (например, выполнение условий центральной предельной теоремы может свидетельствовать о нормальном законе распределения случайной величины), опыта аналогичных предшествующих исследований и, наконец, на основании графического изображения эмпирического распределения.

Параметры распределения, как правило, неизвестны, поэтому их заменяют наилучшими оценками по выборке, полученными в гл. 9.

Как бы хорошо ни был подобран теоретический закон распределения, между эмпирическим и теоретическим распределениями неизбежны расхождения. Естественно, возникает вопрос: объясняются ли эти расхождения только случайными обстоятельствами, связанными с ограниченным числом наблюдений, или они являются существенными и связаны с тем, что теоретический закон распределения подобран неудачно. Для ответа на этот вопрос и служат критерии согласия.

Пусть необходимо проверить нулевую гипотезу Я0 о том, что исследуемая случайная величина X подчиняется определенному закону распределения. Для проверки гипотезы Я0 выбирают некоторую случайную величину U, характеризующую степень расхождения теоретического и эмпирического распределений, закон распределения которой при достаточно больших п известен и практически не зависит от закона распределения случайной величины X.

Зная закон распределения Я, можно найти такое критическое значение иа, что если гипотеза Я0 верна, то вероятность того, что U приняла значение больше чем иа, т.е. P(U >иа) = а — мала, где а — уровень значимости критерия. Если фактически наблюдаемое в опыте значение U-и окажется больше критического: U = и > иа (т.е. попадет в критическую область (рис. 10.6)), то в соответствии с принципом практической уверенности это

Рис. 10.6

означает, что такие большие значения U практически невозможны и противоречат гипотезе Я0. В этом случае гипотезу Я0 отвергают. Если же U = и<иа, то расхождение между эмпирическим и теоретическим распределениями несущественно и гипотезу Я0 можно считать правдоподобной или по крайней мере нс противоречащей опытным данным.

Х2-критерий Пирсона. В наиболее часто используемом на практике критерии у}-Пирсона в качестве меры расхождения U берется величина х2, равная сумме квадратов отклонений частостей (статистических вероятностей) wi от гипотетических pjf рассчитанных по предполагаемому распределению, взятых с некоторыми весами с,:

Веса Cj вводятся таким образом, чтобы при одних и тех же отклонениях [wj-Pj) больший вес имели отклонения, при которыхрг мала, и меньший вес — при которых рг велика. Очевидно, этого удается достичь, если взять с, обратно пропорциональными вероятностям рг Взяв в качестве весов п

с. = — , можно доказать, что при п —> со статистика Pi

или

имеет х2_расиределение с k-m-r-1 степенями свободы, где т — число интервалов эмпирического распределения (вариационного ряда); г — число параметров теоретического распределения, вычисленных по экспериментальным данным.

Числа rij = nWj и npj называются соответственно эмпирическими и теоретическими частотами.

Схема применения критерия у} для проверки гипотезы #0 сводится к следующему.

  • 1. Определяется мера расхождения эмпирических и теоретических частот х2 по формуле (10.16).
  • 2. Для выбранного уровня значимости а по таблице х2-распределения находят критическое значение %2 » при числе степеней свободы k-m-r-1.
  • 3. Если фактически наблюдаемое значение х2 больше критического, т.е.

X2 > Xa-k у то гипотеза #0 отвергается; если х2 ^ > гипотеза Н0 не противоречит опытным данным.

Замечание. Как уже отмечено, статистика

имеет х2-распределение лишь при п —> оо, поэтому необходимо, чтобы в каждом интервале было достаточное количество наблюдений, по крайней мере 5 наблюдений. Если в каком-нибудь интервале число наблюдений rij < 5, имеет смысл объединить соседние интервалы[1], чтобы в объединенных интервалах я, было не меньше 5.

> Пример 10.12. Для эмпирического распределения рабочих цеха но выработке по данным первых двух граф табл. 8.1 подобрать соответствующее теоретическое распределение и на уровне значимости а = 0,05 проверить гипотезу о согласованности двух распределений с помощью критерия х2.

Решение. По виду гистограммы распределения рабочих по выработке (рис. 10.7) можно предположить нормальный закон распределения признака. Параметры нормального закона а и а2, являющиеся соответственно математическим ожиданием и дисперсией случайной величины X, неизвестны, поэтому заменяем их «наилучшими» оценками по выборке — несмещенными и состоятельными оценками соответственно выборочной средней х и «исправленной» выборочной дисперсией s2. Так как число наблюдений п = 100 достаточно велико, то вместо «исправленной» s2 можно взять «обычную» выборочную дисперсию s2. В примере 8.8 вычислены Т = 119,2(%), s2= 87,48, 5 = 9,35(%).

Рис. 10.7

Итак, выдвигаемая гипотеза Я0: случайная величина X — выработка рабочих цеха — распределена нормально с параметрами а - 119,2; а2 = 87,48, т.е. X ~ N(119,2; 87,48).

Для расчета вероятностей р, попадания случайной величины X в интервал [xf-,x/+1] используем функцию Лапласа в соответствии со свойством нормального распределения:

тт J 100-119,2^1 J94-119,2V

Например, ^(94

^ V у У,оо у _

= |[ф(-2,05) - Ф(-2,69)] = |(-0,9596 + 0,9928) = 0,0166 и соответствующая

первому интервалу теоретическая частота пр{=0 • 0,0166 « 1,7 и т.д.

Для определения статистики у} удобно составить таблицу (табл. 10.3).

Таблица 10.3

1

Интервал

Эмпирические частоты и,

Вероятности р{

Теоретические частоты пр{

(и, - яр,)2

(и,-яр,)2

ПР{

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 94-100
  • 100-106
  • 106-112
  • 112-118
  • 118-124
  • 124-130
  • 130-136
  • 136-142

ib

и

  • 20
  • 28
  • 19

rb

  • 0,017
  • 0,059
  • 0,141
  • 0,228
  • 0,247
  • 0,182
  • 0,087
  • 0,029
  • 1.7 Ь,б
  • 5,9J
  • 14.1 22,8
  • 24.7
  • 18.2
  • 8’7lll,6 2,9 J
  • 5,76
  • 9,61
  • 7,84
  • 10,89
  • 0,64
  • 0,16
  • 0,758
  • 0,682
  • 0,344
  • 0,441
  • 0,035
  • 0,014

I

100

0,990

99,0

-

у} = 2,27

Учитывая, что в рассматриваемом эмпирическом распределении частоты первого и последнего интервалов (пл = 3, п$ = 2) меньше 5, при использовании критерия х2_Пирсона в соответствии с замечанием на с. 331 целесообразно объединить указанные интервалы с соседними (см. табл. 10.3). Итак, фактически наблюдаемое значение статистики у} = 2,27.

Так как новое число интервалов (с учетом объединения крайних) т = б, а нормальный закон распределения определяется г = 2 параметрами, то число степеней свободы к = т - г - 1=6 — 2 —1 = 3. Соответствующее критическое значение статистики у2 по табл. V приложений Хоозз =7,82. Так как у2 < Хо о5-з >10 гипотеза о выбранном теоретическом нормальном законе 119,2; 87,48) согласуется с опытными данными. ?

Замечание. Для графического изображения эмпирического и выравнивающего его теоретического нормального распределений необходимо использовать одинаковый для двух распределений масштаб по оси ординат.

Так, если при построении гистограммы эмпирического распределения

п

по оси ординат откладывать плотность частости —— (где пг частота

пАх

г-го интервала (i = 1, 2, т), Ах — величина интервала, т — число интервалов, п — число наблюдений, объем выборки), то выравнивать такую гистограмму будет теоретическая нормальная кривая с плотностью 1 2

фдг(х) = —=re“(*_) /2а2, где в качестве параметров а и сг2 используются ау2л

их состоятельные и несмещенные выборочные оценки: соответственно средняя х и дисперсия s2 (либо s2 « 52 при больших п).

Для построения кривой (рЛг (х) можно использовать таблицу плотности вероятности стандартного нормального распределения (табл. I приложений) в соответствии с формулой

При равенстве величин всех интервалов (как в примере 10.12) часто бывает удобнее при построении гистограммы эмпирического распределения по оси ординат откладывать частости щг = п;/п (см. рис. 10.7) или частоты и,-. В этом случае выравнивающей гистограмму кривой будет растянутая (сжатая) вдоль оси ординат в Ах (или пАх) раз нормальная кривая, т.е. кривая ф,(х) = ф,у(х)Дх (или кривая ф2 (х) =фЛ, (х) пАх).

Точное построение выравнивающей кривой ф,(х) (или ф2(х)) связано с проведением дополнительных расчетов. Их можно избежать, используя приближенный способ построения (см. рис. 10.7). В процессе применения х2_критерия Пирсона были вычислены вероятности р, и теоретические частоты npt интервалов распределения. Учитывая, что в соответствии со свойствами плотности распределения фЛ, (х()Дх, = р, (или жрд-(х,)Дх( = пр, ), выравнивающую теоретическую кривую фДх) (или Ф2(х)) можно построить приближенно по точкам (х,,р;) (или (х/, npj)), где в качестве значений х, (г =1,2.....т) целесообразно взять середины интервалов (см. рис. 10.6). При этом следует иметь в виду, что максимум выравнивающей кривой ф1 (х) (или ф2(х)) будет в точке х = а « х правей

> Пример 10.12а. Имеются следующие статистические данные о числе вызовов специализированных бригад скорой помощи в час в некотором населенном пункте в течение 300 ч:

Число вызовов в час х,

0

1

2

3

4

5

6

7

8

S

Частота п,

15

71

75

68

39

17

10

4

1

300

Подобрать соответствующее теоретическое распределение и на уровне значимости а = 0,05 проверить гипотезу о согласованности двух распределений с помощью критерия у}.

Решение. Вычислим выборочные среднюю и дисперсию:

Выдвигаем гипотезу //0: случайная величина X — число вызовов скорой помощи в час — распределена по закону Пуассона с параметром X = 2,54.

В пользу этой гипотезы свидетельствует следующее:

Рис. 10.8

  • — вызов скорой помощи для каждого жителя — событие в целом достаточно редкое;
  • — полигон частостей (частот) дискретной случайной величины X (рис. 10.8) по своему виду напоминает полигон пуассоновского распределения вероятностей при небольших значениях X (см. передний форзац учебника);
  • — оценки математического ожидания М(Х) и дисперсии D(X) — выборочная средняя и выборочная дисперсия приближенно равны, т.е. х = s2(a равенство М(Х) = D(X), или а = а2, характерно именно для распределения Пуассона — см. параграф 4.2).

В качестве неизвестного параметра X, являющегося математическим ожиданием случайной величины, распределенной по закону Пуассона (см. параграф 4.2), берем его несмещенную и состоятельную оценку по выборке — выборочную среднюю, т.е. X ~ х = 2,54.

Вероятности значений случайной величины X найдем по формуле (4.8):

Для определения статистики %2 составим таблицу (табл. 10.3а).

Таблица 10.3а

1

х, = т

Щ

Pi

nPi

(И, - np f

(Щ-пр{)2 nPi

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

9

0

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 15
  • 71
  • 75
  • 68
  • 39
  • 17

")?

1

  • 0,0789
  • 0,2003
  • 0,2544
  • 0,2154
  • 0,1368
  • 0,0695
  • 0,0294
  • 0,0107
  • 0,0034
  • 23,7
  • 60,1
  • 76,3
  • 64,6
  • 41,0
  • 20,9
  • 8’8 }4,2 3,2 J
  • 1,0
  • 75.69 98,01
  • 1.69 11,56 3,61
  • 14.44
  • 1.44
  • 0,64
  • 3,194
  • 1,631
  • 0,022
  • 0,179
  • 0,088
  • 0,694
  • 0,164
  • 0,152

I

300

0,9988

299,6

Х2= 6,12

При расчете у2объединяем последние два интервала, так как их частоты (л8 = 4, щ = 1) меньше 5.

Так как новое число интервалов (с учетом объединения двух последних) т = 8, а закон Пуассона определяется г - 1 параметром, то число степеней свободы ? = m- r- l= 8- l- l=6. По табл. V приложений Хоо5б = 12,59. Так как у} < Хоо5 б (6,12 <12,59), то гипотеза Н0 согласуется с опытными данными. ?

Критерий Колмогорова. На практике кроме критерия у} может быть использован критерий Колмогорова, в котором в качестве меры расхождения между теоретическим и эмпирическим распределениями рассматривают максимальное значение абсолютной величины разности между эмпирической функцией распределения F„(x) и соответствующей теоретической функцией распределения

называемое статистикой критерия Колмогорова.

Доказано, что какова бы ни была функция распределения F(x) непрерывной случайной величины X, при неограниченном увеличении числа наблюдений (п —> оо) вероятность неравенства р[Г)4п > Xj стремится к пределу

Задавая уровень значимости а, из соотношения

можно найти соответствующее критическое значение Ха. В табл. 10.4 приводятся критические значения Ха критерия Колмогорова для некоторых а.

Таблица 10.4

Уровень значимости а

0,40

0,30

0,20

0,10

0,05

0,025

0,01

0,005

0,001

0,0005

Критическое значе- ние Ха

0,89

0,97

1,07

1,22

1,36

1,48

1,63

1,73

1,95

2,03

Схема применения критерия Колмогорова следующая.

  • 1. Строятся эмпирическая функция распределения F„ (х) и предполагаемая теоретическая функция распределения F(х).
  • 2. Определяется мера расхождения между теоретическим и эмпирическим распределениями D по формуле (10.17) и вычисляется величина

3. Если вычисленное значение Покажется больше критического Ха, определенного на уровне значимости а, то нулевая гипотеза Я0 о том, что случайная величина X имеет заданный закон распределения, отвергается. Если X < Ха, то считают, что гипотеза Я0 не противоречит опытным данным.

О Пример 10.13. Урожайность зерновых культур в десяти регионах представлена в табл. 10.4а.

Таблица 10.4а

Регион

1

2

3

4

5

6

7

8

9

10

Урожайность, ц/га

18,0

17,1

15,3

13,1

14,9

17,8

12,9

14,4

15,6

19,4

Используя критерий Колмогорова, на уровне значимости а = 0,05 проверить гипотезу о том, что случайная величина X - урожайность зерновых культур - распределена по нормальному закону.

Решение. Найдем оценки[2] параметров нормального закона: а~х =15,85, ст2 «х2 = 4,69 (так как п = 10 - мало, берем s2, а не ,v2). Выдвигаем нулевую гипотезу Я(1: X ~ JV( 15,85; 4,69).

Значения эмпирической функция распределения Fn(x), или накопленной относительной частоты (частости), находим по формуле (8.1):

Значения теоретической функции распределения F(x) нормально распределенной случайной величины X находим через функцию Лапласа

,. г/ 1 Алг —15,85 но формуле (4.30): Ь (х) = —+—Ф —,- , например,

2 2 V л/4,69

и т.д.

Результаты вычислений значений эмпирической F„(x) и теоретической F(x) функций распределения представлены в табл. 10.5, а их графики — на рис. 10.9 (значения урожайности х располагаем в порядке возрастания).

Из рис. 10.9 следует, что

Таблица 10.5

X

12,9

13,1

14,4

14,9

15,3

15,6

17,1

17,8

18,0

19,4

F„{x) =

72 пак

п

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

F(x)

0,087

0,102

0,251

0,330

0,398

0,454

0,718

0,816

0,840

0,949

Рис. 10.9

По формуле (10.20) величина Х = Dfn =0,146л/Го = 0,46.

Критическое значение критерия Колмогорова по табл. 10.4 равно Аоо5 = 1,36. Так как А.<Х,005 (0,46< 1,36), то гипотеза Н0 согласуется с опытными данными. ?

Замечание. Критерий Колмогорова применяется на практике благодаря своей простоте. Однако в принципе его применение возможно лишь тогда, когда теоретическая функция распределения F(x) задана полностью. Но такой случай на практике встречается весьма редко. Обычно из теоретических соображений известен лишь вид функции распределения, а ее параметры определяются по эмпирическим данным. При применении критерия х2 это обстоятельство учитывается соответствующим уменьшением числа степеней свободы. Такого рода поправок в критерии Колмогорова не предусмотрено. Поэтому, строго говоря, этот критерий нельзя применять при неизвестных параметрах распределения, а также для сгруппированных данных. Однако если на практике в такой ситуации (см. пример 10.13) все же применить критерий Колмогорова, взяв за значения неизвестных параметров их оценки, то получим завышенное значение вероятности Р(>.), а значит, большее критическое значение Ха. В результате есть риск в ряде случаев принять нулевую гипотезу /70 о законе распределения случайной величины как правдоподобную, в то время как на самом деле она противоречит опытным данным.

  • [1] Поэтому при вычислении числа степеней свободы в качестве величины т берется соответственно уменьшенное число интервалов.
  • [2] См. замечание на с. 338.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >