Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Проект 2.2. Доверительный интервал бутстрэп-методом

Файл с данными short.dat приведен в Appendix А.5 и представляет собой массив 50 х 3, столбцы которого — выборки из трех разных распределений, описанных в табл. 2.6.

Первый столбец — это выборка из Гауссова распределения N(10, 2) с математическим ожиданием, равным 10, и стандартным отклонением, равным 2. Второй столбец — выборка из двумодального распределения, а третий — из степенного распределения. Их гистограммы изображены на левых сторонах рис. 2.15—2.17. Судя даже по сводным данным из табл. 2.6, среднее значение степенного распределения не имеет особого смысла, поскольку оно более чем в 3 раза меньше стандартного отклонения.

Таблица 2.6

Сводные характеристики столбцов массива short.dat

Тип данных

Нормальное

распределение

Дву модальное распределение

Степенное

распределение

Среднее значение

10,27

16,92

289,74

Стандартное

отклонение

Действительное значение

1,76

4,97

914,50

Деленное на Vn

0,25

0,70

129,33

Многие статистики могли бы оспорить обоснованность характеристик из табл. 2.6 не из-за формы распределений, которая действительно смущает по крайней мере в двух случаях из трех, а из-за небольших размеров выборок. Достаточно ли 50 наблюдений для того, чтобы представить всю генеральную совокупность двумя числами? Для решения этой проблемы в математической статистике выработаны методы, основанные на предположении, что все наблюдения выбраны случайным и независимым образом из одного, возможно не известного, но стационарного, распределения. Тогда в достаточно четко определенных ситуациях для таких показателей, как среднее значение, может быть построено свое теоретическое распределение и, следовательно, некоторые доверительные границы для значений показателя. Как правило, доверительные границы определяют по интервалу, в которой попадает 95% наблюдений из генеральной совокупности, ведь се распределение известно. Например, если распределение нормально, 95%-ный доверительный интервал вычисляется как среднее значение плюс-минус стандартное отклонение, умноженное на 1,96 и деленное на корень квадратный из числа наблюдений (корень из N= 50 равен 7,07). Для первой колонки данных теоретически обоснованный доверительный интервал имеет границы 10 ± 1,96 х х 2 / 7,07 = 10 ± 0,55, т.е. (9,45, 10,55), при условии, что настоящие параметры распределения известны, или 10,27 ± 1,96 • 1,76 / 7,07 = 10,27 ± 0,49, т.е. (9,78, 10,76) для наблюдаемых параметров из табл. 2.6. Разница между построенными интервалами невелика, особенно если учитывать, что понятие доверительного интервала само не очень-то понятно. В математической статистике используется так называемое распределение Стьюдента, чтобы компенсировать использование выборочного значения стандартного отклонения вместо точного. Если число наблюдений больше, чем несколько сотен, распределение Стыодента мало отличается от нормального.

Во многих практических приложениях форма распределения неизвестна, к тому же оно не обязательно стационарно. В таких случаях ценность теоретических доверительных интервалов невелика. Поэтому возникает закономерный вопрос: можно ли найти какие-нибудь доверительные границы вычислительным образом, используя только имеющуюся выборку, не используя сомнительные допущения? Разработано несколько подходов к вычислительной валидации показателей, построенных по выборке. Один из самых популярных таких методов это бутстрэп. Ниже будут описаны две версии этого метода: с опорой и без (pivotal и non-pivotal), как они определены в Carpenter and Bithell (2000).

Бутстрэп основан на некотором количестве, например 1000, случайных испытаний. Каждое испытание состоит из N случайных выборов объектов из выборки с возвращением, где N — это количество объектов в исходном множестве. Поскольку проводится выбор с возвращением, некоторые объекты могут быть выбраны несколько раз, а другие останутся не выбранными ни разу. Нетрудно убедиться, что в среднем - 1) / е = 63,2% всех объектов попадут в выборку одного испытания (здесь е = 2,7182818 — знаменитое «математическое» число, основание натурального логарифма). Действительно, при каждом случайном выборе из множества размером N, вероятность не быть выбранным для любого объекта составляет 1-1 / N. Поэтому вероятность быть не выбранным при N независимых выборах равна (1-1 / N)N « 1 / е = 1 / 2,71828 » 36,8% от общего числа объектов. Первое, приближенное, равенство является одним из так называемых замечательных пределов, рассматриваемых в математическом анализе. Пример случайной независимой выборки из 15 объектов с возвращением: 8, 11, 7, 5,

3, 3, 11, 5, 9, 3, 11, 6, 13, 13, 9. Некоторые объекты — 1, 2, 4, 10, 12, 14, 15 (всего 6 / 15 = 40%) — в нее не попали, а некоторые попали в выборку по несколько раз.

Гистограммы выборки 50 наблюдений из Гауссова распределения (слева) и ее среднего значения, рассчитанного но методу бутстрэна (справа)

Рис. 2.12. Гистограммы выборки 50 наблюдений из Гауссова распределения (слева) и ее среднего значения, рассчитанного но методу бутстрэна (справа):

все значения среднего попадают между 9,5 и 11,2

Выборка, полученная в одном испытании, определяет выборочную таблицу данных, в которой N строк соответствуют элементам выборки, причем каждая строка взята из исходной таблицы данных — та, что соответствует данному элементу выборки. Совпадающим объектам соответствуют одинаковые строки. Затем рассматриваемый метод, в данном случае — вычисление среднего, применяется к данным рассматриваемого испытания; в результате получаем величину среднего для этого испытания. После 1000 или 5000 испытаний получается 1000 или 5000 выборочных оценок среднего. Эти-то величины и используются для получения доверительных границ.

В МатЛабе имеется команда bootstrap, с помощью которой можно сгенерировать оценки среднего в любом заданном числе испытаний. Поскольку метод применим не только к валидации среднего, но и к валидации любых других результатов анализа данных, мы приведем команды МатЛаба, порождающие 2000 испытаний для любого метода — они достаточно просты. Примем, что рассматриваемый признак обозначен через х, а п обозначает число объектов в рассматриваемой выборке. Например, команда “»п=45;” делает п равным 45.

» r=ceil(n*rand(n,2000));% создает матрицу лх2000 случайных индексов; столбец — испытание; » хг=х(г) ;% формирует матрицу величин х, соответствующую индексам в матрице г, »mr=mean(xr); % вектор средних на 2000 испытаниях.

Справа на рис. 2.12—2.14 показаны распределения среднего значения, полученные методом бутстрэна, для всех трех типов данных после 1000 испытаний.

Метод валидации с опорой основан на предположении, что распределение значений средних значений бутстрэна является Гауссовым. Эго значит, что имея оценку среднего, ть, и стандартного отклонения, sb, этого распределения, можно воспользоваться обычной «теоретической» формулой для нахождения 95%-ного доверительного интервала. Согласно теории нормального распределения центральный интервал, покрываемый 95% распределения, имеет центр в точке mh, а границы — на расстоянии 1,96s/, от него, влево и вправо. В нашей задаче доверительный интервал это ть± 1,96 • sb = 10,24 ± 1,96 - 0,24 = 10,24 ± 0,47, т.е. интервал между 9,77 и 10,71. Этот результат близок к результату, полученному в предположении Гауссова распределения. Это не удивительно, поскольку в этом случае исходное распределение действительно Гауссово.

Таблица 2.7

Гистограммы выборки из 50 наблюдений из бимодального распределения (слева) и 1000 испытаний для среднего значения но методу бутстрэпа (справа)

Рис. 2.13. Гистограммы выборки из 50 наблюдений из бимодального распределения (слева) и 1000 испытаний для среднего значения но методу бутстрэпа (справа)

Общие характеристики результатов бутстрэпа (1000 испытаний для данных из массива short.dat)

Тип данных

Нормальное

Двумодальное

Степенной закон

Среднее значение

10,27

16,94

287,54

Стандартное

отклонение

Исходная

выборка

0,25

0,70

129,33

Бутстрэп-

значение

0,25

0,69

124,38

Среднее значение, %

2,46

4,05

43,26

Безопорный метод бутстрэпа не использует никаких допущений о характере распределения средних значений бутстрэпа. Доверительные границы определяются непосредственно по полученному распределению средних значений путем отрезания 2,5% -ных нижнего и верхнего квантилей. Это делается так: весь список средних значений бутстрэпа сортируют в порядке возрастания, после чего отделяют нижние и верхние 2,5% значений. Для случая 1000 испытаний для этого надо взять соответственно 26-ю и 975-ю компоненты отсортированного списка. В нашем случае доверительный интервал, построенный таким способом, лежит между 9,78 и 10,70. Этот результат очень близок к найденным раньше границам 95%-ного доверительного интервала для математического ожидания первой выборки.

Существует теоретическое доказательство того, что в случае, когда исходное распределение нормально, бутстрап позволяет получить более узкие значения стандартного отклонения. Действительно, в табл. 2.7 средние значения почти одинаковы, а стандартное отклонение слегка уменьшилось.

К сожалению, бутстрап не столь полезен для анализа двух других распределений. Он позволяет найти довольно точный доверительный интервал для среднего значения как по бимодальному распределению, так и по степенному закону. Однако отыскание математического ожидания обоих этих распределений на практике не имеет смысла. В первом случае смешиваются две разнородные группы, во втором — скрывается еще более глубинная неоднородность распределения. По-видимому, требуются другие методы, такие как кластерный анализ, для того чтобы сформировать более однородные множества наблюдений.

Читателю предлагается построить оценки 95%-ного доверительного интервала, с опорой и без, для двух оставшихся распределений из файла short.dat (бимодальное распределение и степенной закон).

Гистограммы 50-элементной выборки степенного закона (слева) и средних значений ее 1000 испытаний но методу бутстрапа (справа)

Рис. 2.14. Гистограммы 50-элементной выборки степенного закона (слева) и средних значений ее 1000 испытаний но методу бутстрапа (справа)

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы