Малый размер благоприятствует проявлению крайностей

Следующий материал основан на работе X. Вайнера и X. Цверлинга[1]

Десять лет назад в США был обнаружен следующий паттерн: наибольший процент сильных учеников наблюдается в малых, а не больших школах, что послужило для многих родителей сигналом к тому, что надо определять своих детей именно в малые школы. Вайнер и Цверлинг выступили с объяснением этого феномена, из которого вытекало, что малые школы также содержат и наибольший процент слабых учеников, так что нет никакой причины стремиться в эти школы. Поскольку данные о слабых учениках не собирались, они проиллюстрировали свою точку зрения на других, более доступных, данных.

Л2. Карта США с выделенными черным графствами с наименьшим уровнем заболеваний раком почек (слева) и графствами с наивысшим уровнем

Рис. Л2. Карта США с выделенными черным графствами с наименьшим уровнем заболеваний раком почек (слева) и графствами с наивысшим уровнем

заболеваний раком ночек (справа)

Эти данные относятся к заболеваемости раком почек в США: на рис. А2 на карте США черным выделены графства с наименьшим уровнем заболеваний раком почек (слева) и графства с наивысшим уровнем заболеваний раком почек (справа). Конечно, эти графства разные, но сосредоточены они в основном в одних и тех же штатах. Эти штаты отличаются тем, что в них преобладает сельское население, они относительно мало населены, причем население в основном придерживается республиканских взглядов (христианский фундаментализм, опора на свои силы и пр.). В принципе, этих характеристик достаточно, чтобы объяснить каждый из наблюденных паттернов. Мало случаев рака почек? Конечно: сельский образ жизни, чистые вода и воздух, свежая незагрязненная пища. Много случаев рака почек? Тоже понятно: бедность, жирная пища, алкоголь, низкий уровень медицины. Единственный вопрос: можно ли совместить эти несовместимые события?

Оказывается, можно совместить. Дело вовсе не в сельском образе жизни. Дело в малонаселенности. В малонаселенных графствах больше шансов для крайностей. Возьмем, например, наугад три шара из урны с равным количеством белых и черных шаров. При выборе каждого шара — две возможности, либо черный, либо белый. Значит, для трех шаров — 8 возможностей, каждая с вероятностью 1/8. При этом событие, состоящее в том, что один шар черный, а два белые, соответствует трем возможностям (ч-б-б, б-ч-б, б-б-ч), а событие, состоящее в том, что все шары белые — одной возможности (б-б-б), так же, как и событие, состоящее в том, что все шары черные. Если выбираются 4 шара, то вероятности «чистых», или экстремальных, событий «только белые» или «только черные» (б-б-б-б или ч-ч-ч-ч), уменьшаются вдвое, до 1/16. При выборе 7 шаров, вероятности экстремальных событий «только белые» или «только черные» уменьшаются еще в 8 раз, до 1/128. Чем больше шаров, тем меньше относительная вероятность экстремальных событий. Если отождествить графства с совокупностями выбранных шаров, высокий уровень рака — с черным, а низкий уровень рака — с белым цветом, то получим, что вероятность экстремальных событий в малонаселенных графствах существенно превышает их вероятность в плотнонаселенных графствах. Вот и объяснение паттернов на рис. А2. Урновая модель хорошо разработана и понятна, поэтому указанный механизм, объясняющий данные паттерны, нс должен встретить особых возражений.

Что показывают два рассмотренных примера? В общей ситуации, для того чтобы замеченный паттерн мог являться основой принятия решений, необходимо предложить вразумительный механизм его формирования. Желательно, чтобы этот механизм не противоречил имеющимся представлениям о явлении. Если же противоречит, то могут пройти годы и десятилетия, пока ситуация нс прояснится.

Ну и, конечно, само формулирование объясняющего механизма — это творческий акт, который может оказаться просто невозможным для специалиста по анализу данных. Это не его амплуа — заниматься спецификой той или иной прикладной области. Именно поэтому желательно привлечение к анализу данных специалистов в области, к которой относятся данные.

  • [1] Warner Н. Evidence That Smaller Schools Do Not Improve Student Achievement / II. Wainer,H. L. Zwerling, 2006. URL: http://cog.state.pa.us
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >