Выбросы и их типы

Массовые явления и процессы, составляющие предмет статистического анализа, обладают свойством изменчивости в пределах одной совокупности, или вариацией. Разные единицы одного и того же множества обладают одним и тем же изучаемым свойством в разной степени. Иногда различия столь велики, что обобщать и анализировать информацию становится трудно, а подчас и невозможно. Поэтому изучение характера изменчивости и управление вариацией представляют собой актуальную задачу статистической науки и практики. Именно контроль над вариацией и лежит в основе многих широко известных статистических процедур. Например, в статистическом контроле

качества используется информация о нормальных размерах вариации для выявления нестандартных и требующих вмешательства случаев.

Одним из моментов, приводящих к искажению результатов статистического исследования, является присутствие в совокупности (выборке) наблюдений экстремально больших или малых значений — выбросов. Поэтому изучение методов выявления выбросов, несомненно, является актуальной задачей бизнес-статистики.

Аномальными наблюдениями (выбросами) называют элементы совокупности (выборки), значительно отличающиеся от остальных по значениям изучаемого признака. Считается, что поиск отличающихся единиц начался с работы Сэра Френсиса Бэкона «Новый Органон» (1620 г.), в которой он высказал предположение о том, что именно в различиях кроется движущая сила развития, предусмотренная самой Природой. Методология работы с аномальными значениями развивалась в работах А.-М. Лежандра, Д. У. Тьюки, Г. Дженкинса, Ф. Е. Граббса, Дж. О. Ирвина, Дж. У. Диксона, В. И. Романовского и др.

Существует несколько классификаций выбросов, основанных на различных признаках (рис. 2.2). Выбросы подразделяют на статические и динамические. Статические выбросы представляют собой нехарактерные единицы пространственного наблюдения, относящегося к одному интервалу или моменту времени; динамические выбросы — уровни динамических рядов, которые имеют существенные отклонения от общей тенденции развития.

По степени влияния аномальных наблюдений на результаты статистического анализа, их делят на жесткие, мягкие и влиятельные наблюдения. Жесткие выбросы, как правило, выявляются любым способом, подходящим к массиву данных, и оказывают сильное влияние на разрабатываемую модель. При удалении наблюдения из массива данных характеристики строящейся модели и параметры ее качества значительно изменяются. Мягкие выбросы могут выявляться лишь несколькими из существующих алгоритмов, а при использовании других способов могут не выявляться и будут считаться входящими в нормальные границы совокупности. Так что разные алгоритмы выявления выбросов обладают различной чувствительностью. Влиятельные наблюдения внешне (на графиках) похожи на мягкие выбросы, но выявляются далеко не всеми алгоритмами. Тем не менее они оказывают сильное влияние на значения параметров моделей и результаты статистического тестирования. Такие наблюдения часто входят в нормальные границы совокупности и расстояние между ними и основным массивом данных, использующихся в анализе, может объясняться особенностями выборки.

На основе размерности изучаемого массива данных выбросы подразделяют на одномерные и многомерные. В первом случае наблюдения являются выбросами только по одной изучаемой переменной, а во втором — являются аномальными сразу по нескольким изучаемым переменным.

С точки зрения причин, вызвавших появление выбросов, различают ошибочные аномальные значения и отличающиеся данные. К первым относят ошибки, возникающие в результате регистрации при обследовании, порчи образцов продукции при транспортировке, случайное смещение выборок. Отличающиеся данные появляются не случайно, а в силу особых причин.

Классификация выбросов

Рис. 2.2. Классификация выбросов

Особенности собранных данных и природа аномальных наблюдений влияют на выбор алгоритмов их обнаружения. Тестировать совокупность на присутствие аномальных наблюдений можно несколько раз в зависимости от сложности задачи. Таким образом, для одного массива данных может быть применено несколько процедур на разных этапах исследования: на этапе обработки и сводки первичных данных, изучения характера распределения после удаления или корректировки ошибок наблюдения, тестирования гипотез и получения аналитических выводов.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >