Меню
Главная
Авторизация/Регистрация
 
Главная arrow Математика, химия, физика arrow БИЗНЕС-СТАТИСТИКА
Посмотреть оригинал

Целесообразность выявления выбросов и работа с данными, содержащими аномальные наблюдения

Выбросы выявляют потому, что аномально высокие или низкие значения искажают показатели статистических свойств совокупностей — среднюю, дисперсию, коэффициент вариации, затрудняют определение закона распределения. Классификация выбросов может быть полезной при выборе действия в отношении аномальных значений определенного класса. Так, вполне очевидно, что ошибки наблюдения подлежат корректировке или замене, тогда как отличающиеся данные — дополнительному анализу. Разделение выбросов на классы поможет сократить время обработки данных при первичном анализе, назначая каждому классу выбросов определенный порядок действий.

Иногда наличие множественных выбросов в хвостах распределения может означать присутствие элементов частных совокупностей, обладающих специфическими свойствами, отличными от той совокупности, из которой сделана выборка. Такие распределения требуют моделирования по смешанному типу, используя несколько аналитических функций для разных частных совокупностей.

В многомерных данных выбросы по одной переменной могут быть плохо заметны, ведь во многих исследованиях число переменных измеряется десятками. Поэтому их приходится обнаруживать с помощью специальных методов, ведь все процедуры статистического вывода (планирование эксперимента, тестирование гипотез на основе выборок) по данным, содержащим выбросы, могут дать решение, статистически незначимое, ценность которого сомнительна и наоборот, показать значимость модели в случаях отсутствия связи, приводя к ложным суждениям о наличии и силе связи.

Итак, предположим, массив данных содержит выбросы. Что делать в этом случае? Ошибки наблюдения можно исправить, удалить или заменить добавочно собранными данными. На этот случай при организации выборочного наблюдения обычно собирают данные дополнительно по некоторому числу единиц. В случае стратифицированной выборки замена должна производиться только из единиц той же страты, а в случае кластерной выборки замене подлежит весь кластер.

Когда ошибки наблюдения удалены, но выбросы еще присутствуют в выборке, пользуются процедурами математического преобразования данных: логарифмированием, извлечением квадратного корня или стандартизацией переменных. Зачастую после преобразований выборочная совокупность принимает характер какого-либо стандартного распределения без выбросов. Однако математические результаты не должны входить в противоречие с целью исследования: чрезмерные преобразования замаскируют выбросы, а недостаточные зачислят в выбросы те единицы, которые находятся в нормальных границах. Этот вопрос решается в соответствии с принципом парсимонии: упрощать, но не упрощаться. Иными словами, здесь большое значение имеет опыт предыдущих исследований по сходным массивам данных. Если же после преобразований аномальные значения остаются, то это и есть выбросы, т.е. отличающиеся данные, не характерные для совокупности в целом, но, тем не менее, присутствующие в ней.

Сколько выбросов можно считать нормой? Для небольших выборок два-три выброса могут составлять почти треть выборочного распределения и качество такого массива данных нельзя считать приемлемым, тогда как для выборок более 30 единиц такое же число выбросов вполне допустимо. В литературе часто можно встретить приблизительную оценку допустимого числа выбросов — 20% от общей численности выборочных единиц1. В каждом конкретном случае решение о допустимой численности выбросов должно приниматься в зависимости от характера распределения и интенсивности вариации выборочных данных, а также значимости выбросов в контексте принятия решений. Еще А. М. Лежандр (1752—1833) рекомендовал при расчете наименьших квадратов удалять чрезмерно большие наблюдения с целью уменьшения ошибки моделирования[1] [2].

В настоящее время с развитием компьютерных технологий несложно перестроить модель, если ее параметры не удовлетворяют исследователя с точки зрения значимости, но все же лучше провести первичный анализ данных и выделить выбросы. Если присутствие выбросов все же необходимо при решении задачи, то можно провести моделирование без аномальных значений, а затем с ними, и сравнить результаты либо выбирать робастные процедуры, т.е. устойчивые по отношению к наличию выбросов, например методы Хубера, Винзора, Пуанкаре и ряд других. Так поступают при анализе макроэкономических данных, когда невозможно отделить от совокупности, например, регионов России, несколько субъектов РФ с аномально высоким значением среднедушевого дохода. Аналогично, невозможно удалить с конкурса те заявки на выполнение работ или инвестиционных проектов, которые имеют слишком высокую или низкую стоимость, так как при оценке результатов конкурса все проекты должны включаться в анализ.

В работах, посвященных выбросам указываются три базовые стратегии действий с выборками, которые могут содержать аномальные значения[3]:

• маркирование подозрительных единиц с целью последующего наблюдения за ними, например отслеживание изменений в характере распределения переменной, вызванной присутствием потенциального выброса;

• приспособление с целью получения по выборке, предположительно содержащей аномальные значения, параметров моделей и статистик, на которые выбросы, если они есть, не окажут значительного влияния;

• идентификация, т.е. применение формальной количественной или качественной процедуры для выявления выброса и принятие решения об удалении, замене или сглаживании аномального значения.

Изучение выбросов в динамических рядах представляет собой отдельную задачу, так как уровни динамических рядов расположены в порядке, в котором их значения появлялись, т.е. хронологическом. Кроме того, автокорреляция в рядах динамики может распространять влияние выброса на последующие наблюдения, и простое исключение выброса из системы, хотя бы на время построения модели, не содержащей выбросы, здесь не всегда подходит. Зачастую выбросы появляются множественно, сразу на нескольких уровнях, появляется так называемый маскировочный эффект, скрывающий выбросы. Поэтому к анализу параметров уравнения тренда следует подключать периодизацию динамики, включение лаговых переменных, интерполяцию для пропущенных значений и другие процедуры, характерные для анализа временных рядов.

  • [1] Burke S. Missing values, Outliers, Robust statistics and Non Parametric methods // VAMBulletin. 19 (1998). Autumn, 22—27.
  • [2] HadiA. Rahmatullah I., Werner M. Detection of outliers. John Wiley & Sons, Inc. WIREsComp Stat 2009, Vol. 1, July/August 2009
  • [3] Iglewicz B., Hoaglin D., Mykytka E. F. «Volume 16: How to Detect and Handle Outliers»,The ASQC Basic References in Quality Control: Statistical Techniques, 1993.
 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Популярные страницы