ВЫБОРОЧНЫЕ НАБЛЮДЕНИЯ

В результате освоения данной темы студент должен:

знать

• основные понятия выборочного метода и способы формирования выборочных совокупностей, понятия стандартной и предельной ошибки выборки;

уметь

рассчитывать выборочные характеристики, стандартные и предельные ошибки выборок с учетом их формирования;

владеть

• методами организации и построения выборочных совокупностей с учетом решаемых задач, определения их точностных характеристик.

Выборочные аналоги параметров генеральной совокупности

Значительная часть задач статистики связана с необходимостью описать большую совокупность объектов. Как правило, эту совокупность называют генеральной. Генеральной совокупностью, например, могут быть все жители Москвы, месячная продукция завода, производящего компьютеры, популяция рыб, живущих в озере. Если интересующая нас совокупность объектов слишком многочисленна или ее объекты труднодоступны, или имеются иные причины, не позволяющие изучить все объекты, прибегают к изучению какой-то части объектов. Выбранная для полного исследования часть называется выборкой. Естественно желание выбрать ее так, чтобы она наилучшим образом представляла целое, была, как говорят, репрезентативной. Если генеральная совокупность мало или совсем неизвестна, то целесообразно использовать чисто случайный выбор. Большая осведомленность позволяет действовать лучше, но все равно на некоторой стадии наступает незнание и как результат — случайный выбор.

Во многих случаях на сплошное обследование не хватает ни времени, ни сил. Тогда приходится использовать выборочный метод исследования, решать задачу организации случайной выборки.

Случайный отбор в основном проводят по легко наблюдаемым признакам, не связанным с интересующим нас признаком, ради изучения которого ведется исследование. Например, имея в руках список всех сотрудников данного предприятия, можно выделить и включить в выборку каждого десятого из данного списка.

Нарушение принципов случайного выбора обычно приводит к серьезным ошибкам. Стал знаменитым своей неудачей опрос, проведенный американским журналом «Литературное обозрение» относительно исхода президентских выборов в 1936 г. Кандидатами на этих выборах были Ф. Д. Рузвельт и А. М. Ландон. В качестве генеральной совокупности редакция журнала использовала телефонные книги. Отобрав случайно 4 млн адресов, она разослала открытки с вопросами об отношении к кандидатам в президенты но всей стране. Затратив большую сумму на рассылку и обработку открыток, журнал объявил, что на предстоящих выборах президентом США с большим перевесом будет избран А. М. Ландон. Результат выборов оказался противоположным прогнозу.

Здесь были совершены сразу две ошибки. Во-первых, телефонные книги не могли дать репрезентативную выборку из населения страны, хотя бы потому, что абоненты в 1936 г. были в основном зажиточные главы семейств. Во-вторых, прислали ответы не все, а люди, не только достаточно уверенные в своем мнении, но и привыкшие отвечать на письма, т.е. в значительной части представители делового мира, которые и поддерживали А. М. Ландона. Явление, подобное только что описанному, когда выборка представляет не всю генеральную совокупность, а лишь какую-то ее часть, называется смещением выборки. Смещение — один из основных источников ошибок при выборочном методе.

Такой ошибки избежали социологи Дж. Гэллап и Э. Роупер. Они правильно предсказали победу Ф. Д. Рузвельта, основываясь всего лишь на 4 тыс. анкет. Причиной этого успеха, сделавшего славу его авторам, было не только правильное составление выборки. Они учли, что общество распадается на социальные группы, которые более однородны по отношению к кандидатам в президенты. Значит, выборка из слоя может быть относительно малочисленной с высоким результатом точности. Имея результаты обследования по слоям, можно характеризовать общество в целом.

Из сказанного выше следуют следующие выводы.

Генеральной совокупностью (X) называют множество результатов всех мыслимых наблюдений над значениями одного илы нескольких признаков, которые могут быть сделаны при данном комплексе условий. При этом комплекс условий определяет вариацию признаков генеральной совокупности. Синонимом генеральной совокупности в статистике является случайная величина X. Выборочной совокупностью (выборкой) хх, х2, ..., хп называют множество результатов, случайно отобранных из генеральной совокупности.

Выборка должна быть репрезентативной, т.е. правильно отражать пропорции генеральной совокупности. Это достигается случайностью отбора, когда все объекты генеральной совокупности имеют одинаковую вероятность быть отобранными. Задача статистики практически сводится к обоснованному суждению об объективных свойствах генеральной совокупности по результатам случайной выборки.

В основе перехода от характеристик генеральной совокупности X к эмпирическим (выборочным) характеристикам лежит интерпретация выборки объемом п как модели дискретной случайной величины. В этой модели возможными значениями являются наблюдавшиеся значения х{, х ..., хпУ а в качестве вероятностей берутся соответствующие относительные частоты их появления в выборке, т.е. величины, равные 1 /п. Таким образом, выборку можно представить в табличном виде:

Условно рассматривая выборку как табличную форму задания дискретной случайной величины, возможные значения которой xv х2,..., хп появля-

1

ются с одними и теми же вероятностями р ,= р2 = ... = рп = —, легко пред-

ft

ставить эмпирические аналоги рассмотренных выше начальных (II. 2.5)[1] и центральных (11. 2.6) моментов.

Сказанное проиллюстрируем на примере наиболее часто используемых начального момента первого порядка v, = MX и центрального момента второго порядка р2 = DX.

Согласно (П. 2.2), математическое ожидание дискретной случайной величины с п возможными значениями х{, х2,..., хп и соответствующими вероят-

1

ностями р ,= р2 = ... = рп = — запишем:

п п

Исходя из формулы математического ожидания, мы пришли к формуле средней арифметической (выборочной средней), основной и наиболее употребительной характеристики центра группирования:

Таким образом, средняя арифметическая х является выборочным аналогом математического ожидания MX. Дисперсия дискретной случайной величины согласно (П. 2.4)

Учитывая, что для выборки MX = х, а р. = —,

п

Итак, мы пришли к формуле выборочной дисперсии которая является выборочным аналогом генеральной дисперсии DX.

Рассуждая аналогично, можно получить выборочные аналоги и других моментов генеральной совокупности, а также показать, что относительная частота т/п есть выборочный аналог вероятности р появления некоторого события А в отдельном испытании, если т есть число появления события А в п независимых испытаниях. Выборочным аналогом теоретической функции распределения F(x) (II. 2.1) является функция F(x), построенная по выборке объемом п и описываемая соотношением

где v(x) — число выявленных значений в выборке х{, х2,xfV меньших х.

Из определения эмпирической функции распределения непосредственно следует объяснение часто используемого ее другого названия — «накопленная относительная частота».

Для построения оценки функции плотности f(x) по выборке объема п из непрерывной генеральной совокупности X используют предварительно сгруппированные данные (см. П. 2.4) и полагают, что

где k — порядковый номер интервала группирования, в который попала точка Ту vk(x) — число наблюдений, попавших в этот интервал; длина интервала.

В статистике используются два варианта интерпретации выборки и ее отдельных элементов.

  • 1. Под выборкой хи х2,хп понимаются фактически выявленные значения исследуемой случайной величины, т.е. конкретные числа (практический вариант интерпретации).
  • 2. Под выборкой х хъ ..., хп понимается последовательность независимых, одинаково распределенных случайных величин, закон распределения которых совпадает с распределением генеральной совокупности.

Таким образом, если генеральная совокупность X имеет нормальное распределение, т. е. X ~ JV(p; а), то х,- также принадлежит для всех г = 1,2,..., п к нормальному распределению с математическим ожиданием Мх. = р и дисперсией Dxi = а2, т.е. г, ~ N(p; ст) для i = 1, 2, ..., п.

В соответствии со вторым определением выборки все выборочные

(- 2 Ш ~ .

характеристики х, s , s, — являются случайными величинамиу как функ-

V п)

ции от случайных величин х,.

В отличие от выборочных, параметры генеральной совокупности (р, а2, а, р) являются неслучайными величинами.

Как уже отмечалось, средние значения, полученные из большого числа наблюдений, обладают устойчивостью. К такого рода средним относятся и все рассмотренные выше выборочные характеристики. Математическим обоснованием этого факта служат различные формы закона больших чисел, который теоретически объясняет устойчивость основных выборочных характеристик распределения (среднего значения, дисперсии, функции распределения и плотности), построенных по выборке xv х2, хп. При этом показателем устойчивости служит дисперсия соответствующей выборочной характеристики.

Проиллюстрируем сказанное на примере выборочной средней х, полученной но выборке х х2, хп, взятой из генеральной совокупности х с математическим ожиданием Мх = р и дисперсией Ох = а2.

Отсюда, в соответствии со вторым определением выборки, следует, что ее i-й элемент xi есть случайная величина с математическим ожиданием Mr =(i и дисперсией Dxi = о2 для всех /=1,2, ..., п. При этом элементы выборки xly x2f хп взаимно независимы. Тогда дисперсия средней ариф-

( 1 п N

метической х равна Dx = D — ^х. .

кп i=1 У

В соответствии со свойствами дисперсии (см. приложение 2) можно

1

вынести множитель — за знак дисперсии, возведя предварительно его

п

в квадрат, и поменять местами знаки дисперсии и суммирования. Тогда будем иметь

и окончательно

Таким образом, согласно (8.5), по мере увеличения объема выборки дисперсия х будет уменьшаться и средняя будет стремиться к постоянной величине, определяемой генеральной средней р.

Чтобы убедиться в этом, определим математическое ожидание х. С учетом свойств математического ожидания будем иметь

Таким образом,

Поэтому по мере увеличения п величина х будет приближаться к Мх = р со все меньшей вариацией.

Аналогично относительная частота w - — какого-либо события но мере

п

увеличения объема выборки п будет более точно характеризовать вероятность р этого события, так как согласно (П. 2.17) математическое ожидание w равно Mw = р, а среднее квадратическое отклонение w составит

[р(-р)

Среднее квадратическое отклонение выборочных характеристик х и w, с одной стороны, характеризует их вариацию относительно математического ожидания, а с другой — ошибку выборки при оценке соответствующего параметра генеральной совокупности (р или р). В связи с этим среднее квадратическое отклонение называют стандартной ошибкой

а „ 1р(1-р)

соответственно средней ат = —j= или относительной частоты gw = J-.

V п V п

Практически во случаях параметры генеральной совокупности р, а и р неизвестны, а известны лишь полученные по выборке их оценки, значения средней арифметической х> выборочного среднего квадратического отклонения 5

т

или относительной частоты w = —. I огда оценка значения средней квадрата

тической ошибки средней арифметической G- определяется по формуле

fl ” Г

где s= -2(х.-х)2.

V п I=i

Оценку значения средней квадратической ошибки относительной частоты aw находят с помощью формулы

При достаточно больших объемах выборки (п > 30 для х и п > 100 для w) можно считать с учетом (8.7) и (8.8), что нормированный нормальный закон распределения имеет выборочные характеристики:

s

т.е. Mt = 0; Dt = 1, sT = —j=, а также

yjn

w(i -w) где sw = yj - •

Из (П. 2.11) следует, что вероятность попадания случайной величины t в интервал —ty—ty равна

где у заданная вероятность, а значения определяются по табл. П.1 (см. приложение 1) из условия Ф(?у) = у.

Подставив в (8.11) значения t согласно выражениям (8.9) и (8.10) и решив неравенства относительно параметров р и р соответственно, получаем первый результат:

5

где бт = = t ~j= 8Т — предельная ошибка средней х.

sin

Второй результат будет таким:

где б, =ts=tvA————, 8, — предельная ошибка относительной ' ' V п

частоты го.

Формулы (8.12) и (8.13) определяют также интервал, в котором с вероятностью у будут находиться неизвестные параметры генеральной совокупности, соответственно математическое ожидание р и вероятность р.

  • [1] Здесь и дачее ссылки на формулы из приложения 2.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >