Биномиальный закон распределения вероятностей

Биномиальным называется распределение, когда вероятности появления отдельных вариант соответствуют коэффициентам разложения бинома Ньютона. По биноминальному закону распределяются признаки, которые варьируют дискретно (число здоровых и больных особей в популяции, численность особей с доминантным и рецессивным признаком, и т. д.).

Частоты отдельных классов пропорциональны коэффициентам разложения бинома Ньютона (р + q)k, где р и q — вероятность появления каждого признака, к — число классов, отличающихся по появлению признака. Если р = 0,5, q = 0,5, а к увеличивается, то биномиальная кривая приближается к нормальной кривой, которая является пределом биномиального распределения. При больших различиях значений р и q асимметрия биномиальной кривой более значительна. Характеризуют биномиальное распределение:

1) средняя арифметическая х = ^ , где п — объем выборки; х

п

число классов альтернативного признака; _

2) среднее квадратическое отклонение а = yjkpq, где к — число субвыборок; р и q — частоты появления каждого альтернативного признака.

Закон биноминального распределения выражается формулой (р + q)k. Коэффициенты разложения бинома указывают на вероятность альтернативного признака. Их можно определить по треугольнику Паскаля:

Число наблюдений субвыборок, к

Биноминальные

коэффициенты

Число возможных исходов (2fc)

1

1 1

2

2

12 1

4

3

13 3 1

8

4

1464 1

16

5

1 5 10 10 5 1

32

ит. д.

Биномиальный закон распределения вероятностей — это наиболее распространенный вид дискретного распределения.

В основе биномиального распределения лежит альтернативное проявление изучаемого признака: он может присутствовать у единичного объекта или отсутствовать, проявиться или нет. Если вероятности появления объектов разного качества приблизительно равны (например, когда общее число больных примерно равно числу здоровых особей), биномиальное распределение имеет симметричную, колоколообразную (но ступенчатую) форму, подобную нормальному распределению.

Пример. Важной характеристикой популяций животных является плодовитость поголовья маток, которая подчиняется биномиальному закону распределения вероятностей. Отдельное событие — это появление или (непоявление) детеныша. При этом вероятность реализации отдельного события «детеныш появится» составляет р, а вероятность события «детеныш не появится» равна q = 1 -р.

Рассмотрим результаты изучения плодовитости овцематок стада овец романовской породы (число ягнят на матку).

Исходные данные приведены в таблице.

Проведем расчет вероятности элементарных событий (появления — непоявления) ягнят. Для этого сначала вычислим общее число появившихся ягнят. Оно равно сумме всех произведений числа ягнят от отдельной овцематки (х) на частоту их встречаемости (/): = 370.

Плодовитость овцематок, х

Число овцематок (частота)/

Число эмбрионов

(хЯ

1

1

1

2

3

6

3

24

72

4

26

104

5

22

110

6

8

48

7

3

21

8

1

8

к = 8

п = 88

АГф = 370

Затем рассчитаем общее число потенциальных зародышей (суммарное количество потенциальных ягнят от всех овцематок) к = 8; Nn = п • 8 = 88 • 8 = 704 экз. Наконец, определим долю реализованных исходов (рожденных ягнят) среди потенциальных:

и долю нерожденных:

Вычисленные характеристики сущности наблюдаемого процесса размножения овец романовской породы свидетельствуют о том, что вероятность рождения отдельного ягненка (р = 0,53) превышает вероятность его не рождения (q = 0,47), это означает, что в стаде имеются овцематки с более высокой плодовитостью и указывает на некоторую асимметрию распределения. Вычисляем показатели асимметрии и эксцесса и их ошибки по следующим формулам:

Таким образом, вычисленные показатели асимметрии и эксцесса несущественные. По найденным вероятностям р и q можно рассчитать параметры биномиального распределения плодовитости овцематок по формулам: х = к-р = 8-0,53 = 4,2 ягненка на овцематку; <5 = yjk p-q = = ^/8 0,53 0,47 =0,41 ягненка на овцематку.

Ошибка средней величины признака: тх = ~^= = = 0,150; ошибка

1п 9,38

о 0,41

стандартного отклонения: тп = -1= - . =0,031.

V2п л/2-88

Доверительный интервал для параметров биномиального распределения следующий: при уровне значимости t = 0,05 находим доверительные интервалы для х и о:

Значение генерального параметра находится в диапазоне: для средней арифметической — от 3,91 до 4,49 ягненка на овцематку, для стандартного отклонения — от 1,20 до 1,62 ягненка на овцематку.

Пример. Найти вероятность рождения телят с заболеванием порфи- рия, которая вызывает повышенную светочувствительность и розовую окраску зубов и нормальных телят у крупного рогатого скота, где оба родителя гетерозиготные по гену порфирии (при получении, от высокопродуктивной коровы, пяти телят).

Для нахождения вероятности рождения здоровых и больных телят необходимо использовать формулу биноминального распределения: (а + Ъ)п, где а — вероятность рождения больного теленка, Ъ — вероятность рождения здорового теленка; п — возможное число телят. Для данного случая формула биноминального распределения будет иметь вид

В нашем примере величина а (вероятность рождения больного теленка) равна 1/4, b (вероятность рождения здорового) равна 3/4.

Первый член формулы (а5) обозначает вероятность рождения всех пяти телят больных порфирией; второй член (5а4Ь) — вероятность события, когда четверо телят будут больные и один здоровый; третий член (10а3Ь2) — вероятность события, когда трое телят больные и двое здоровые; четвертый член (10а2Ь3) — вероятность события, когда двое телят больные и трое здоровые; пятый член (5ab4) — вероятность того, что один теленок будет больным и четыре здоровыми; шестой член (Ь5) — вероятность того, что все пять телят будут здоровыми.

Подставляя числовые значения для каждого члена формулы можно определить вероятность того или иного события.

В нашем примере:

  • 1) вероятность того, что все телята будут больными равна: а5 = = (1 /4)5 = 1/1024 = 0,001;
  • 2) вероятность того, когда четверо телят будут больные и один здоровый равна: 5а4Ь = 5(1/4)4 • (3/4) = 15/1024 = 0,015;
  • 3) вероятность того, что трое телят будут больными, а двое здоровыми равна: 10а3-b2 = 10(1/4)3 * (3/4)2 = 90/1024 = 0,089;
  • 4) вероятность того, что двое телят будут больными, а трое — здоровыми равна: 10а2 • Ь3 = 10Ц/4)2 • (3/4)3 = 270/1024 = 0,26;
  • 5) вероятность того, один будет больным, а четверо — здоровыми равна: 5а-Ь4 = 5(1/4) • (3/4)4 = 405/1024 = 0,395;
  • 6) вероятность того, что все пять телят будут здоровыми равна: Ь5 = = (3/4)5 = 243/1024 = 0,24.

Проверка: 0,001 + 0,015 4- 0,089 + 0,395 + 0,26 + 0,24 = 1.

Нормальное распределение названо по имени авторов — распределение Гаусса — Лапласа. Нормальное распределение наиболее часто встречается на практике. Это наиболее распространенный тип распределения особей совокупности по классам вариационного ряда.

Для биологической практики наиболее важными являются следующие виды нормального распределения:

  • • эмпирическое нормальное распределение;
  • • общее (теоретическое) нормальное распределение;
  • • стандартное нормальное распределение.

Эмпирическое нормальное распределение — это распределение, полученное опытным путем на основе статистического исследования. Особенность данного распределения в том, что объем его совокупности всегда конечен.

Общее (теоретическое) нормальное распределение — это абстрактная математическая модель, которую используют в качестве стандарта для сравнения с эмпирическим (опытным) распределением по разным статистическим критериям. Особенность этого распределения: оно построено в предположении, что объем совокупности является бесконечно большим.

Нормальное распределение — это распределение непрерывной случайной величины X, характеризуемое плотностью вероятности:

где е и те — математические постоянные, равные 2,71 и 3,14 соответственно; а, а2 — параметры, которые равны соответственно математическому ожиданию и дисперсии распределения.

График общего (теоретического) нормального распределения представляет собой одновершинную колоколообразную симметричную вариационную кривую, которая асимптотически приближается к оси абсцисс (рис. 5.2).

Эту кривую строят в прямоугольной системе координат, где по горизонтали откладывается текущее числовое значение признака х,- в порядке возрастания, а по вертикали — значение функции у = /(х), которое соответствует числу объектов (вариантов) с данным числовым значением признака.

График нормального распределения

Рис. 5.2. График нормального распределения

Особенности нормального распределения:

  • • кривая распределения симметрична относительно средней арифметической (или х);
  • • чем больше отклоняются числовые значения вариантов от средней арифметической, тем реже такие варианты встречаются в совокупности;
  • • площадь под кривой равна объему совокупности N = 1 (точнее, 0,9973).

В пределах площади, отсекаемой перпендикулярами к горизонтали в точках:

  • • ± 1о находится 68,3 % всех наблюдений;
  • • ± 2о находится 95,5 % всех наблюдений;
  • • ± За находится 99,7 % всех наблюдений.

Для общего (теоретического) нормального распределения средняя арифметическая х, мода Мо и медиана Me равны между собой.

Смещение кривой по горизонтальной оси определяется числовым значением средней арифметической.

Степень вытянутости кривой по вертикали зависит от значения стандартного отклонения. Чем меньше числовое значение имеет стандартное отклонение а, тем более острой будет кривая.

Наибольшее значение функции у имеет место тогда, когда числовое значение конкретной варианты равно значению средней арифметической Jtj = х.

Стандартное нормальное распределение — это особая форма распределения, которую можно использовать в качестве стандарта при оценках любых данных, независимо от их размерности. По-другому такое распределение называют нормированным нормальным распределением.

Введение стандартного нормального распределения вызвано тем, что обычная формула общего нормального распределения для практического применения неудобна. По этой формуле положение кривой по горизонтали, ее размер и форма определяются и зависят от объема совокупности, значения средней арифметической и стандартного отклонения. Поэтому используют нормированное отклонение:

где х — числовое значение конкретной варианты; х — средняя арифметическая выборочной или генеральной совокупности; а — стандартное отклонение.

Так же как и для общего теоретического нормального распределения, для стандартного распределения:

  • • 68,3 % площади под кривой соответствует ±1а;
  • • 95,5 % площади под кривой соответствует ±2а;
  • • 99,7 % площади под кривой соответствует ±Зо.

Первая функция нормального распределения (отсекающая ордината) выражается формулой

Вторая функция нормального распределения (p(z) показывает, какова площадь кривой, если ее отсечь ординатами у0 и у{.

Для стандартного нормального распределения существуют «зэт- таблицы», которые связывают значения «зэт» с площадью кривой, отсеченной ординатами у0 и у{. В биологических и зоотехнических исследованиях это соответствует числу особей изучаемой совокупности (в процентах) которые вошли в отсеченную часть кривой.

Третья функция нормального распределения F(z) указывает, какая будет средняя величина признака в отсеченной части кривой. Она вычисляется по формуле

где f(z) — первая функция нормированного отклонения (отсекающая ордината); (p(z) — вторая функция нормированного отклонения.

Если стандарт больше средней, то доля особей, превышающих значение стандарта равна

Если стандарт меньше средней, то доля особей, превышающих значение стандарта равна

Закономерности и три функции нормированного распределения варьирующего признака используются при планировании селекционного процесса. При этом определяют:

  • • теоретическую величину а;
  • • теоретические частоты распределения животных в совокупности по данному признаку при неизвестном их фактическом распределении, но заданных исходных значениях хип;
  • • количество животных (%), которое оставляется для племенного использования при заданном уровне отбора;
  • • средние величины признака у животных, вошедших в племенное ядро (стада, породы, линии, кросса) при заданном уровне отбора (при данном селекционном дифференциале);
  • • границу отбора (селекционный дифференциал).

Распределение Стъюдента — это нормальное распределение которое зависит от одного параметра v — числа степеней свободы.

Рассмотрено в 1908 г. математиком В. Госсетом, который взял себе псевдоним «студент» (англ, student).

Распределение Стьюдента иначе называется ^-распределение.

Формула критерия:

где х — средняя арифметическая выборки; ц — средняя арифметическая генеральной совокупности (генеральная средняя); ~^= — ошибка

л/п

репрезентативности средней арифметической (стандартная ошибка средней арифметической).

В формуле числитель представляет собой отклонение выборочной средней от генеральной средней р, а знаменатель является стандартной ошибкой средней арифметической.

График распределения Стьюдента, как и график нормального распределения, представляет собой куполообразную симметричную кривую, но он более полог и имеет большую площадь под кривой.

При увеличении объема выборки распределение Стьюдента стремится к нормальному распределению и переходит в него при объеме бб совокупности, равном бесконечности. На практике такой переход фактически наблюдается при объемах выборки более 100 вариантов.

Практическое значение распределения Стьюдента состоит в том, что по малым выборкам становится возможным проверять статистические гипотезы относительно параметров генеральной совокупности.

На практике значения критерия Стьюдента tst берут из таблиц tst. В этих таблицах в одном столбце даются значения числа степеней свободы v, а в других — значения критерия для стандартных уровней надежности (0,95; 0,99; 0,999) или уровней значимости (0,05; 0,01; 0,001).

Асимметричное и эксцессивное распределение (проверка нормальности распределения). В отличие от нормального распределения встречаются еще распределения асимметричные и эксцессивные. При асимметричном распределении на графике (рис. 5.3) получается кривая, скошенная вправо или влево. В первом случае распределение будет положительным, или правосторонним, а во втором случае — отрицательным, или левосторонним. Такой тип распределения может отражать влияние каких-то факторов (уровень кормления, интенсивность отбора), изменяющих нормальное распределение и вызывающих асимметрию, т. е. накопление частот в левой или правой части кривой.

Асимметричное распределение

Рис. 5.3. Асимметричное распределение:

а — отрицательная асимметрия; б — положительная асимметрия

Асимметрия может быть и следствием неправильно сделанной выборки, что требует проведения нового отбора особей из генеральной совокупности.

Показатель асимметрии (As) вычисляется по формуле

Ошибка показателя асимметрии вычисляется по формуле

Эксцессивное распределение характеризуется значительным накоплением частот в классах, близких по величине к среднему значению признака (положительный эксцесс). На графике (рис. 5.4) это выражается крутовершинностью ветвей кривой. Эксцесс наблюдается также в виде плосковершинности и даже двухвершинности. Двухвершинность указывает на то, что члены, входящие в состав выборки, неоднородны. Это отражает те или иные качественные сдвиги в состоянии варьирующего признака, вызванные влиянием на организм различных факторов.

Эксцессивное распределение

Рис. 5.4. Эксцессивное распределение:

а — положительное; б — отрицательное; в — плосковершинное

Двухвершинность в распределении молочного скота по содержанию жира в молоке может явиться следствием того, что в стаде имеются помесные животные. Оба типа эксцесса могут возникнуть и в результате неправильно проведенной выборки, что недопустимо.

Показатель эксцесса (?) определяется по формуле

Ошибка показателя эксцесса (т?) определяется по формуле

Распределение считается достоверно нормальным, если абсолютная величина показателей асимметрии и эксцесса меньше их ошибок репрезентативности в 3 раза и более.

Пример. Из стада крупного рогатого скота голштинской породы по таблице случайных чисел проведена малая выборка в размере пяти коров с массовой долей жира в молоке (табл. 5.3). Требуется проверить эту выборку на нормальность распределения. Необходимые рассчеты приведены в табл. 5.3.

Средняя арифметическая выборки х = 4,102.

Стандартное отклонение о = 0,234. По формуле вычисляем показатель асимметрии:

Значение массовой доли жира в молоке коров голштинской породы

Корова

МДЖ, %

xt-x

(xf-x)3

?-х)4

1

3,98

-0,12

-0,00182

0,002097274

2

3,84

-0,26

-0,01798

0,000429982

3

4,35

0,248

0,015253

0,002176782

4

3,99

-0,11

-0,0014

0,002176782

5

4,35

0,248

0,015253

0,0037827420

N =5

х = 4,10

2 = 0,0093

2 = 0,00691

Ошибка показателя асимметрии:

По формуле Е вычисляем показатель эксцесса:

Ошибка показателя эксцесса:

Как показывают расчеты, показатель асимметрии в 7,5 раза меньше своей ошибки, что свидетельствует о достоверно нормальном распределении этой выборки. Показатель эксцесса свидетельствует о существенном отклонении от нормального распределения.

Трансгрессивное распределение - при трансгрессивном распределении классы одного варьирующего признака, например классы в минимальных его величинах, являются в то же время классами максимального значения другого вариационного ряда. Если изобразить его графически, то одна кривая как бы частично накладывается на другую, образуя трансгрессирующую зону (заштрихована) с одинаковыми классами для части обеих кривых. Это является первой особенностью трансгрессии вариационных рядов. Вторая особенность трансгрессии заключается в том, что средние арифметические хг и х2 вариационных рядов достоверно различаются.

В зависимости от целей селекции можно увеличить или уменьшить степень трансгрессии. Для определения степени трансгрессии используют ее коэффициент, вычисляемый по формуле

где пг и п2 — число членов каждой совокупности; рг и р2 — доли частот, которые входят в трансгрессию.

Эти доли определяют с помощью функции нормального распределения (p(z) по формулам

где Zj и z2 — нормированные отклонения варьирующего признака, ордината которого отсекает трансгрессирующую часть кривой (рис. 5.5).

Трансгрессивное распределение

Рис. 5.5. Трансгрессивное распределение

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >