Центральная предельная теорема и ошибка выборочного наблюдения

Случайные величины, как и действительные числа, бывают двух видов — дискретные и непрерывные. Дискретная случайная величина в вероятностном смысле полностью определена, если все ее числа перечислены в ряде распределения (при условии, что значения таких чисел заранее известны и получены частоты их появления). Непрерывная случайная величина имеет множество значений.

Функция распределения может существовать для дискретной и непрерывной величин, но для непрерывной случайной величины эта функция непрерывна и дифференцируема во всех точках.

График кривой, изображающей плотность распределения, называется кривой распределения. Она может быть самой разной формы, и для нескольких кривых разработаны математические формулы — это статистические законы распределения случайных величин. В статистике применяются несколько законов распределения случайных величин (СВ), включая нормальный закон распределения.

В статистике часто возникает необходимость описания случайного процесса при помощи того или иного закона распределения СВ. Так, если случайные события происходят с постоянной частотой и независимо друг от друга, то время между двумя последовательными появлениями таких фактов может подчиняться экспоненциальному распределению. Биноминальное распределение рассматривает процессы или события по двум составляющим: произошло оно или нет, например сделан или не сделан заказ посетителем. Распределение Пуассона описывает события, которые происходят за одинаковые промежутки времени и с постоянной интенсивностью: это, например, число машин, приезжающих на автомойку, количество обращений в кадровое агентство с поиском работы и т.п. Итак, из шести основных законов распределения случайных величин названы три. Вернемся к еще одному, уже названному.

Нормальный закон распределения случайных величин получил наименование «нормальный» из-за частоты его применения. Здесь слово «нормальный» означает «наиболее распространенный», «часто встречающийся». Например, измерение роста людей и массовые процессы в различных сферах деятельности подчиняются нормальному закону распределения. В частности, этот закон проявляется, если определяется концентрация полезного компонента в пищевом продукте или если измеряется длина предмета, заготовки. Также часто возникает необходимость определить с вероятностной ошибкой вес изделия при его серийном выпуске или фасовке продукта. Все количественные результаты указанных действий имеют один итог — разброс средней величины данных по концентрации, длине, весу и т.п., который всегда подчиняется нормальному распределению. Кроме того, этот закон имеет преимущество при вычислениях, а главное — нормальное распределение СВ является предельным законом, к которому при определенных математических условиях приближаются другие законы распределения, в частности у} («Хи-квадрат») и остальные законы. Преимущество в вычислениях проявляется в следующем. Например, менеджер-аналитик называет теоретический закон распределения, которому подчиняется случайная величина того параметра, значение которого нас интересует. Далее для конкретных условий вычисляют стандартизированный статистический критерий. И с помощью этого критерия и теоретической линии выбранного закона распределения получаем ответ: какова вероятность того, что случайная величина будет иметь ожидаемое значение.

В теории вероятностей существуют две предельные теоремы: закон больших чисел и центральная предельная теорема (ЦПТ). Первая приводит к результату, почти не зависящему от случая. ЦПТ, в свою очередь, выясняет вопрос о распределении суммы случайных величин.

Одномерный анализ — начальная ступень исследования. В одномерном анализе для ГС в качестве характеристики принято значение числа р — средняя величина единиц признака этой совокупности данных, или генеральная средняя. При выборочном наблюдении из одной ГС могут проводить не одну, а несколько выборок, и каждая из них — это совокупность чисел. Следовательно, у любой из выборок есть своя средняя — это Хср. Возникает проблема: как на основе выборки определить значение р? Можно поставить вопрос по-другому: есть ли соответствие между средней величиной выборочной совокупности Хср и средней величиной р у ГС, или какова величина ошибки выборки Д = (р - Хср)? Ответ на этот вопрос дает центральная предельная теорема, которая устанавливает связь между законом распределения суммы случайных величин и его предельной формой — нормальным законом распределения.

ЦПТ показывает: если результат измерения складывается под воздействием многих причин, а совокупный итог определяется аддитивно (сложением), то в итоге получаем нормальное распределение сумм средних СВ. В случае, когда все факторы или причины на результат формы распределения влияют мультипликативно (независимые СВ распределены неодинаково), распределение сумм средних СВ будет близко к нормальному.

Если нормальное распределение характеризуется параметрами N(p,a), то стандартное распределение имеет вид ЛГ(0,1)Д, где р — математическое ожидание (средняя величина), а a — среднее квадратическое отклонение.

Приведем формулировку ЦПТ.

Пусть Хь Х2, Х3, Хп — последовательность независимых, одинаково распределенных случайных величин с математическим ожиданием М(Х,) = р, и конечной дисперсией D(X,) = of > 0, где i = 1, 2, ..., п. Обозначим сумму величиной Sn = Хг + Х2 + Х3 + ... + Хп. Тогда при п —у ос для любого действительного числа X существует предел

где 0(Z) — функция стандартного распределения;

Поясним, что поскольку СВ имеют один закон распределения, то имеют место равенства рх + р2 + ... + р„ = п • р, или М(Х) = '2M(Xi) = п • р, а также D(X) = 2,D(X,) — п ? а2. При этом выполнении большого числа наблюдений п закон распределения суммы Sn = + Х2 + Х3 + ... + Хп

будет близок к нормальному закону распределения N(np, па). Так как произведения (п • р) и (п • а2) с ростом п возрастают, то удобнее рассматривать не просто суммы Sn, а нормированные суммы S„:

Эти суммы при п —* оо имеют форму нормального закона распределения N(0,1). Как видно, центральная предельная теорема связана с законом распределения, причем речь идет о нормальном распределении. В интервальном оценивании интересующий нас параметр, средняя величина выборки Хср, сравнивается со средней величиной р, которая принадлежит генеральной совокупности. Если не вводить «коэффициент доверия», или нормированный множитель t, то речь идет о средней ошибке.

Величина средней ошибки выборки ДС1)едн вычисляется по формуле

где хгс — средняя величина единиц признака в ГС; хвыб — средняя величина единиц признака в выборке.

Поскольку речь в ЦПТ идет о неограниченном увеличении числа слагаемых, то выборку следует производить следующим образом. Общий объем выборки побщ разбивают на к — число выборок с равным объемом случайных единиц признака п при условии, что по6щ = пк. По каждой i-й выборке вычисляют свою статистику, например среднюю величину х,. Тогда для всех статистик х,- результирующая средняя величина хрез равна

Вычислим также и общую среднюю величину выборки хобщ (она основана на побщ и не учитывает разбивку всей выборки на к выборок):

Из деления общей выборки побщ на к вытекает, что общая средняя величина всей выборки хобщ равна результирующей средней величине Хрез, т.е. х0бщ =^рез- При этом подчеркнем: чем больше величина побщ, тем точнее средняя величина выборочных статистик характеризуют среднюю величину единиц признака р в ГС.

Ранее русский математик П. Л. Чебышев доказал, что величина средней ошибки выборки Асредн равна

где а — среднее квадратическое отклонение данных; п — число единиц наблюдения в выборке.

Из ЦПТ вытекают следующие свойства выборочного распределения средних.

1. Для выборочного распределения средних при достаточно большом объеме выборок побщ величина общей средней хобщ (или средней результирующей хрез от сложения величин средних для каждой выборки объемом п при условии побщ = пк) равна средней величине ц для исходной или генеральной совокупности:

  • 2. С увеличением объема выборок п форма выборочного распределения средних и форма распределения суммы этих величин все больше приближаются к нормальному распределению, даже если форма распределения исходных данных (генеральной совокупности) подчиняется другому статистическому закону распределения. Собственно, другая форма от закона распределения СВ проявляется в том, что факторы воздействуют на них мультипликативно. Но когда к этому массив данных применяют ЦПТ, то при п —* °° распределение средних величин выборок приближается к нормальному распределению.
  • 3. Стандартное отклонение выборочного распределения средних, или средняя ошибка выборки равна

где п — число единиц признака в выборочной совокупности.

Формула (4.9) показывает, как соотносятся величины среднего квадратичного отклонения огс для ГС и среднего квадратичного отклонения выборки овыб.

4. Необходимо, чтобы средняя ошибка выборки сравнялась со средней величиной выборки, полученной из экспериментальных данных,

Т.е. <7выб.расч ^выб.экспер-

5. Средняя ошибка выборки является основой величины интервала, который используется в интервальном оценивании.

Рассмотрим численные примеры, где для ГС возможно рассчитать величину р и сравнить ее с величиной Хср. Эти примеры относятся к ситуациям, когда ряд распределения:

  • 1) не подчиняется нормальному закону;
  • 2) подчиняется нормальному закону.

Рассмотрим ситуацию с распределением данных, которое не подчиняется нормальному распределению.

Пример 4.2

Представим в виде ряда распределения исходную совокупность с числом наблюдений N = 87, где представлены сведения, сколько покупок течение месяца домохозяйств (ДХ) совершили в конкретном сетевом магазине. Необходимо рассмотреть характер распределения средних величин в исходной совокупности данных.

Число покупок (X,-), шт.

0

1

2

3

4

5

6

7

8

9

10

11

Количество ДХ (/)), шт.

27

16

7

7

6

2

5

2

4

5

3

3

Данная совокупность имеет асимметричную форму распределения данных, весьма близкую к закону Пуассона. Легко убедиться, что средняя арифметическая данной выборки, или исходной совокупности данных, ц = 269 / /87 = 3,1. Величина дисперсии равна о;*,н = 18.

Генеральная совокупность — это 87 картонных карточек, на которых указано одно наблюдение: Х(. Из них в коробке составили картотеку (карточки стояли вертикально), чтобы из нее было удобно вынимать карточку, а затем в любом порядке вынутую карточку возвращать в картотеку. Методом повторной выборки из ГС провели 4 выборки, и в трех из них объем единиц составил 200 ед. признака (по6щл = = побщ 2 = побщ3 = 200), а четвертая выборка имела побщ 4 = 400. Затем эти выборки лобщ | разбивали на выборки меньшего объема щ:

  • 1) выборки с 2лобщ ! = 200; к = 200, каждая объемом пп = 1;
  • 2) выборки с 2л0бщ.г = 200; к = 100, каждая объемом па = 2;
  • 3) выборки с 2побщ.з = 200; к = 20, каждая объемом п,3 = 10;
  • 4) выборки с 2,л0бщ.4 = 400; к = 10, каждая объемом nj4 = 40.

На практике это выглядело следующим образом: выписывали значения то одной карточки Х„ то двух карточек, то десяти и т.д., до тех пор, пока не набирался нужный объем побщ,. Приведем для первого случая сгруппированные данные по 200 выборкам, где na= 1.

Число покупок (X,), шт.

0

1

2

3

4

5

6

7

8

9

10

11

Количество ДХ (/,), шт.

66

49

18

16

11

3

15

2

1

11

5

3

Форма распределения такого ряда не отличается от исходной формы ГС. Для этих 200 выборок

илиХсрЛ и. Кроме того, среднее квадратическое отклонение этих выборок

Когда перешли к случаю 2, то отбирали по две карточки, и в результате получили

Аналогично для случая 3:

Для четвертого случая напишем выборку, включающую 40 элементов:

0; 3; 0; 6; 0; 4; 0; 0; 1; 1; 0; 0; 0 10; 10; 6; 0; 5; 1; 3 8; 2; 11; 7; 0; 11; 0; 3; 0; 1; 0; 3; 9; 2; 6; 9; 4; 1; 0; 0.

Для этой выборки

Приводим значения Хср4, остальных девяти выборок:

Следовательно, согласно условиям ЦПТ ожидаем получить среднюю величину хрез (или величину хо6щвы6ср)от суммы средних величин каждой выборки х,:

Величина среднего квадратического отклонения этой выборки = = 0,097. Тем самым убедились, что при большом количестве наблюдений значении п —> 400 распределение средних величин каждой выборки приближается к нормальному распределению (крайние значения 3,40 и 3,325 выпадают — это искажения, или «шум»; идет плавный рост значений Хвыб ср от 2,575 до пика — величин 3,125; 3,175 и 3,275; затем — снижение до 2,80).

Все результаты вычислений сведем в табл. 4.1.

Таблица 4.1

Характеристики исходной совокупности и распределения выборочных средних (исходная совокупность не подчиняется нормальному распределению)

Показатель совокупности

Средняя

величина

Дисперсия

Исходная совокупность

3,10

11,8

Выборочные совокупности:

2побщд = 200, к = 200, объем выборки п = 1

2,43

7,03

Х^общ.г = 200, к = 100, объем выборки п = 2

2,60

6,1

2по6щ 3 = 200, к = 20, объем выборки п = 10

2,81

3,50

2побщ.4 = 400, к = 10, объем выборки п = 40

3,11

0,097

Как видим из табл. 4.1, если объем выборки равен 400, то значения р иХср практически совпадают. Но поскольку п > N (400 > 87), где п и JV — количество единиц признака в выборке и генеральной совокупностях соответственно, то этот вывод чисто теоретический.

Рассчитаем среднюю ошибку выборки с 2побщ.4 = 400. По формуле (4.9) находим величину опыб:

Если рассчитать выборочную дисперсию из экспериментальных данных, ТО Опыб .экспер = Vo,097 = 0,31.

Как видим, о„ы6 расч « ствы6 экспер — это числа, имеющие один порядок, и, можно допустить, приемлемое совпадение.

Таким образом, для случая, когда распределение данных не подчиняется нормальному распределению, получили подтверждение ЦПТ. Теперь рассмотрим ситуацию с распределением данных, которое подчиняется нормальному распределению.

Пример 4.3

Приведем исходную (генеральную) совокупность с числом единиц признаков N = 200. В данном случае единица признака — отклонение концентрации питательного компонента (в долях процента) от требуемого содержания этого компонента в продукте согласно техническим условиям России. Необходимо рассмотреть характер распределения средних величин в исходной совокупности данных.

Исходную совокупность представим в виде ряда распределения.

Отклонение содержания (Х,),%

1

2

3

4

5

6

7

8

9

Количество отклонений (fj), шт.

5

10

23

40

50

39

18

9

6

Для данного ряда распределения сумма частот каждого значения единиц наблюдения равна общему количеству элементов в совокупности, т.е. 2/i = = 200. Рассчитанная средняя арифметическая величина^ гс = 4,95. Эта исходная совокупность данных имеет форму распределения, близкую к нормальному распределению, что подтверждает и незначительная величина дисперсии °исх.сов = 3,23. Графическое построение данного ряда распределения показывает, что точки образуют линию, характерную для нормального распределения.

Как и в примере 4.2, проводим выборку методом с возвращением единиц совокупности в исходные данные. Вначале было проведено одно выборочное наблюдение с числом единиц наблюдения п = 100, сведения по полученным значениям единиц признака даны ниже.

3

4

5

3

7

1

5

5

4

3

4

4

5

5

2

4

6

9

3

2

3

1

7

4

6

5

5

5

3

7

5

6

3

6

6

6

5

6

3

3

6

5

7

6

5

4

2

8

4

8

1

6

6

7

8

5

2

8

8

4

2

5

6

7

5

5

6

5

9

4

7

3

3

5

7

4

5

4

6

5

5

4

4

5

4

4

6

5

3

9

1

5

5

5

5

6

6

3

5

3

В этом случае Хср = 4,85, экспериментальное значение ствы6:жс = 3,14. Тогда среднее квадратичное отклонение

Рассчитаем среднюю ошибку выборки по формуле (4.9):

В результате получим, что овыб эксп = ствыб расч = 0,56.

Разобьем представленную выборку с п = 100 на 10 выборок, для чего используем механическую выборку с числом последовательно отобранных единиц, равным 10 (т.е. подряд отбираем по десять чисел). Результаты сводим в табл. 4.2, которая также включает средние величины для каждой выборки и итоговую сумму значений единиц признака по вертикали и горизонтали.

Сводная таблица

Выборка

1

2

3

4

5

6

7

8

9

10

12

12

2

у

Лср.выб

1-ая

3

4

5

3

7

1

5

5

4

3

40

4,0

2-ая

4

4

5

5

2

4

6

9

3

2

44

4,4

3-ая

3

1

7

4

6

5

5

5

3

7

46

4,6

4-ая

5

6

3

6

6

6

5

6

3

3

49

4,9

5-ая

6

5

7

6

5

4

2

8

4

8

55

5,5

6-ая

1

6

6

7

8

5

2

8

8

4

55

5,5

7-ая

2

5

6

7

5

5

6

5

9

4

54

5,4

8-ая

7

3

3

5

7

4

5

4

6

5

49

4,9

9-ая

5

4

4

5

4

4

6

5

3

9

49

4,9

10-ая

1

5

5

5

5

6

6

3

5

3

44

4,4

Ж

37

43

51

53

55

44

48

58

48

48

485

4,85

Как видно из табл. 4.2, распределение Хсрвыб соответствует нормальному распределению (ст. 12). К такому же распределению весьма близок горизонтальный ряд суммарных значений или значения 37; 43; 51; 53; 55; 44; 48; 58; 48 и 48 (некоторое искажение в середине распределения).

Для рядаХф выб экспериментальное значение авыб.экс= 0,267. Тогда среднее квадратичное отклонение

При этом, однако, главного результата не достигнуто, и равенство (4.8) не получено, поскольку и с одной выборкой п = 100, и десятью выборками п = 10 величина хобщ ^ р.

При увеличении объема п в каждой выборке величина средней ошибки Дср = (огс : Vn) уменьшается. Так, если увеличить объем отдельной выборки с п = 10 до п = 50 и провести из исходной (генеральной) 9 выборок (процедура по выборке с возвратом 50 карточек со значениями элементов признака снова повторялась в ГС девять раз), то получим величину выборочной совокупности с общим числом элементов

Приведем значения 50 элементов первой выборки: 517224542345396166445265655464665475557 6186564465 4.

Сумма этих приведенных значений 2Д, = 226, а значение средней величины

Приводим все девять значений выборочных средних:

4,52; 4,70; 5,06; 5,14; 5,16; 5,14; 5,02; 4,96 и 4,78.

Для данного ряда распределения результирующая или общая средняя величина равнаХобщ = 4,942. Практически получается равенство^общ =^Ср.с> или 4,95 = 4,942.

Для 9 значений Хср величина дисперсии а^ыб = 0,0455, а средняя ошибка выборки

Тогда расчетная величина среднего квадратического отклонения

Результаты расчетов сведем в табл. 4.3.

Таблица 4.3

Характеристики исходной совокупности и распределения выборочных средних (исходная совокупность подчиняется нормальному распределению)

Показатели совокупности

Средняя

величина

Дисперсия

Исходная совокупность

4,95

3,23

Три выборочные совокупности:

2ЛобЩ.1 = ЮО, объем к = 100, выборки п = 1

4,85

3,14

2побщ.2 = ЮО, к = 10, объем выборки п = 10

4,85

0,27

2побщ.з = 450, к = 9, объем выборки п = 50

4,942

0,0455

Как видно из табл. 4.3 если объем выборки равен 450, то значения р пХср. практически совпадают. Но поскольку n > N (450 > 200), где п и N — количество единиц признака в выборке и генеральной совокупностях соответственно, то этот вывод чисто теоретический.

Таким образом, для случая, когда распределением данных подчиняется нормальному распределению, мы получили подтверждение ЦПТ.

Сделаем общие выводы.

Во-первых, очевидно, что чем больше объем выборок в одном выборочном распределении, тем значение общей (результирующей) средней величины точнее приближается к величине генеральной средней и тем меньше стандартная ошибка выборочного наблюдения.

Во-вторых, если от ошибки выборки Д = (р — Хср) переходить к предельной ошибке выборки Дпред, то следует применять интервальное оценивание, используя нормированный коэффициент t.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >