Меню
Главная
Авторизация/Регистрация
 
Главная arrow Математика, химия, физика arrow БИЗНЕС-СТАТИСТИКА

Использование алгоритмов выявления выбросов для изучения неоднородности социально-экономических данных

Очевидно, что данные, полученные в ходе социально-экономических исследований, могут быть неоднородными, а их вариация — существенной. На наблюдения-выбросы часто оказывают влияние случайные факторы, избавиться от которых практически невозможно. Тем не менее такие совокупности используются для проверки гипотез, построения регрессионных моделей и получения прогнозов по ним, хотя каждый из указанных методов требует наличия однородных данных без существенных аномалий. Поэтому выявление выбросов перед применением тестов и построением моделей является существенной частью первичного анализа данных, обеспечивающей релевантность результатов.

Рассмотрим несколько примеров, иллюстрирующих применение различных алгоритмов выявления выбросов при проведении анализа экономических данных.

Пример 2.1

Известно, что в странах Африки проживает беднейшее население мира, однако не все страны этого континента находятся в одинаковом положении: есть государства, явно перегоняющие своих «соседей». Есть ли среди стран Африки такие, которые имеют аномально низкие или высокие значения даже по сравнению с соседними государствами? Используем несколько алгоритмов изучения выбросов и сравним результаты.

1. Выявление выбросов на основе стебельчато-листового графика. Для того чтобы построить стебельчато-листовой график, достаточно разделить значения признака на «стебель» и «листья», располагая значения стебля сверху вниз, а листьев — слева направо. Можно воспользоваться и автоматическим разделением значения, доступным в большинстве статистических пакетов обработки данных.

На рис. 2.3 наглядно представлена структура изучаемой совокупности и можно увидеть существующие выбросы. Выбросом можем считать значение ВВП по ППС на душу населения в Экваториальной Гвинее, равное 16 312 долл. США, отмеченное на графике. Несложно заметить, что данный способ субъективен, так как в той же мере правильным будет выделение в качестве выбросов всех значений со стеблем 11 тыс. долл, и выше.

2. Выявление выбросов с помощью z-оценки и модифицированной z-оценки. Преимущество выявления выбросов с помощью расчета z-оценок, состоит в том, что они позволяют проверить каждый предполагаемый выброс, что позволит точно определить расстояние от подозрительного наблюдения до центра распределения. С другой стороны, метод z-оценок подходит в основном для больших совокупностей, предполагающих соответствие нормальному закону распределения.

Обычно определяется, на сколько среднеквадратических отклонений изучаемое значение удалено от среднего значения по всей совокупности. Из свойств нормального распределения известно, что 99,7% значений, находящихся в рамках распределения, должны отстоять от центра не более чем на За. Таким образом, для г-го наблюдения рассчитывается значение zf:

где z, — стандартизованное значение переменной, рассчитанное для подозрительного наблюдения; х; — значение подозрительного наблюдения, которое тестируется на аномальность; х — среднее значение по совокупности, характеристика центра распределения; а — СКО по совокупности (характеристика разброса).

Рис. 2.3. Стебельчато-листовой график распределения ВВП по ППС на душу населения по паритету покупательной способности валют стран Африки за 2007 г., долл. США

Для рассматриваемой совокупности среднее значение х = 3633,46,

0 = 3922,17 долл. США. Рассчитаем стандартизованные значения для наибольшего ВВП по паритету на душу населения, равного 16 312 долл. США в Экваториальной Гвинее. Подставляя расчетные данные в формулу, получим для макси-

Х( -х 16312-3633,46

мального значения z =-=-3922 17-= • Поскольку полученное

значение превышает 3, его можно считать выбросом. Предыдущее значение, равное 13 703 долл. США, имеет оценку z = 2,53 и выбросом не является. Согласно результатам расчетов, только Экваториальная Гвинея обладает аномально высоким для африканских государств среднедушевым значением ВВП по ППС.

Для оценки выбросов применяется также модифицированная z-оценка, предложенная Иглевичем и Хоглином[1]. Эта оценка основана на медиане:

где М, — фактическая величина критерия, рассчитанная для подозрительного наблюдения; х, — значение подозрительного наблюдения, которое тестируется на аномальность; Me — медианное значение по совокупности, характеристика центра распределения; MED — медиана модуля отклонения значений признака от медианы.

Для этого показателя значение, превышающее 3,5, считается выбросом.

В основе этого метода также лежит предположение о нормальном распределении совокупности, но в расчет включены характеристики, менее подверженные влиянию выбросов и асимметрии, чем средняя и СКО.

Подставляя расчетные данные в формулу, получим для максимального значения:

Таким образом, ВВП по ППС на душу населения Экваториальной Гвинеи считается выбросом и на основе модифицированной 2-оценки. Заметим, что модифицированная z-оценка выделяет гораздо больше аномальных значений.

К ним будут относиться все значения, находящиеся на стебельчато-листовом графике со значением стебля 7000 долл. США и выше, так как медиана имеющегося распределения значительно меньше средней арифметической и, следовательно, расстояние от каждого значения в правой части распределения до медианы будет существенно больше, чем до средней. Выбор типического значения, характеризующего центр распределения также будет иметь существенное значение для определения выбросов.

Рассмотренный пример позволяет сделать следующие выводы. Результаты выявления выбросов зависят от выбора метода. Выбор метода извлечения выбросов носит субъективный характер. Для одномерных массивов данных предварительно требуется характеристика центра распределения и размеров вариации. Для отбора подозрительных значений можно воспользоваться стебельчато-листовым графиком или гистограммой, для проверки значений — z-оценкой, основанной на средней (для симметричных, близких к нормальному распределений) или модифицированной z-оценкой при асимметричном характере распределения.

z-оценка имеет ряд ограничений: во-первых, средняя и среднеквадратическое отклонение также изменятся под воздействием аномальных значений, что может способствовать маскировке выбросов, во-вторых, максимально возможное значение z-оценки зависит от размера выборки:

где п — число наблюдений[2].

Для характеристики потребительского рынка маркетинговое агентство анализирует цены в интернет-магазинах на популярную в молодежной среде модель смартфона. В выборку включены 83 магазина или 30% всех магазинов, предлагающих выбор модели онлайн и доставку выбранной модели в любой регион страны. Поскольку рынок мобильных устройств является высококонкурентным, то и вариация цен на нем существенная, позволяющая определять не просто аномальные цены, но и разделить их на мягкие и жесткие выбросы.

Воспользуемся методом выявления выбросов, разработанным Д. Тьюки (табл. 2.3), который основан на расчете межквартильного расстояния (IQR). По формулам (2.4) и (2.5) определяются границы мягких выбросов :

где LIF — нижняя внутренняя граница для выявления мягких выбросов; U1F — верхняя внутренняя граница для выявления мягких выбросов; Qi — значение первого квартиля; Оз — значение третьего квартиля; 1QR — межквартильное расстояние,

Для жестких выбросов рассчитываются

где LOF — нижняя внешняя граница для выявления жестких выбросов; UOF — верхняя внешняя граница для выявления жестких выбросов.

Расчет структурных характеристик методом Тьюки для выявления выбросов

Таблица 2.3

Показатель

Значение, руб.

Показатель

Значение, руб.

Qi

18 619,75

3 IQR

7110,75

q2

20 882,00

LOF

11 509,00

Q3

20 990,00

UOF

28 100,75

IQR

2370,25

•*rnin

12 350,00

1,5 IQR

3555,38

V

max

29 000,00

LIF

15 064,38

UIF

24 545,38

Промежуточные расчеты представлены в табл. 2.3. Из данных табл. 2.3 очевидно, что в исследуемой выборке присутствуют как жесткие выбросы справа (максимальное значение превышает верхнюю внешнюю границу цены), так и мягкие выбросы слева и справа. На рис. 2.4 видно, что правые нормальные внутренние и внешние границы довольно сильно сдвинуты относительно квартилей, что означает, что верхний ценовой сегмент имеет большую вариацию, чем нижний.

Максимальная цена выходит даже за пределы трех межквартильных расстояний. Смартфонов по аномально заниженным ценам на рынке нет, минимум не выходит за рамки внешней границы, но за рамки внутренней определенно выходит, значит, понижение цены за пределы полутора межквартильных расстояний присутствует и может быть обусловлено наличием дефектов либо специальных рекламных акций.

1

Рис. 2.4. Диаграмма «ящик с усами» и выявленные жесткие выбросы

Метод Тьюки подходит для больших одномерных совокупностей, когда можно четко выделить структурные характеристики вариационного ряда. Для небольших совокупностей структурные характеристики могут быть определены с трудом либо не определяться вовсе (например, для выборки п = 4 определить квартили невозможно), тогда метод Тьюки неприменим.

Данный метод также хорош для совокупностей, не имеющих значительной асимметрии, в противном случае наблюдения, не являющиеся выбросами, могут быть ошибочно отнесены к аномальным. В этом случае можно воспользоваться модифицированным методом Тьюки, представленным в работах Е. Вандервирена и М. Хьюбера1 и др.

проверяемое значение считается выбросом. Если значение определено, как выброс, то надо проверить следующие значения.

По данным были получены следующие выборочные значения: х = 866,4 руб., s = 298,33 руб.

Для выборки объемом п = 101 при уровне значимости а = 0,05 критическое значение G-критерия равно Gtab =3,38.Фактическое значение критерия

^ „ 1154,0-866,41

для наименьшего значения цены, равного 154 руб., Gmin =1-^-1 = 2,39,

меньше критического. Значит, слева выбросы отсутствуют.

Для максимальной цены, равной 1550 руб., фактическое значение критерия 11550-866,41

составит Gmax =J^1 = 2,29, что также меньше критического значения.

Таким образом, цена на квадратный метр аренды офиса в Санкт-Петербурге аномальных значений не имеет.

Специфика данного метода состоит в обнаружении единственного выброса за одну процедуру. Если массив предположительно содержит более одного- двух выбросов, использование данного теста может оказаться трудоемким. В этом случае рекомендуется использовать z-оценки.

Рис. 2.5. Выявление выбросов на основе графика рассеяния. Графическое изображение взаимосвязи изменения прибыли промышленных компаний и их возраста

Визуальные техники извлечения выбросов имеют ограниченное применение и должны предшествовать расчету тестовой статистики, подтверждающей значимость влияния выделенного наблюдения, но не заменять ее. Такой тестовой статистикой может стать коэффициент корреляции либо другой двумерный тест.

Пример 2.5

Исследование взаимосвязи показателей результатов деятельности микропредприятий с индексом электронного развития регионов показало, что индекс электронного развития регионов связан тесной корреляционной связью с важнейшими показателями результатов деятельности микропредприятий и плотностью распределения. Традиционно в столицах и центрах промышленных кластеров проживает большая доля населения, склонного к предпринимательской деятельности, и имеется больше возможностей для пополнения доходной базы семей за счет предпринимательского дохода. Провести разграничение между просто высоким и экстремально высоким значением бывает довольно непросто, но это приходится делать, так как является очевидным, что модель зависимости, построенная с учетом всех единиц, может быть неадекватной для основной части регионов в случае наличия нескольких выбросов.

Выявление выбросов в анализе показателей социально-экономического развития может быть полезно в качестве одной из процедур первичного анализа данных. Целью этой процедуры является проверка выполнения исходного положения корреляционно-регрессионного анализа о наличии однородной совокупности и отсутствии значимых выбросов.

По результатам расчета нормальных границ совокупности для переменных плотность распределения и индекс электронного развития были выделены аномальные значения разными способами (табл. 2.4).

Таблица 2.4

Результаты применения различных алгоритмов для выявления аномальных значений (выбросов)

Переменная

Выделенные аномальные значения

Визуальный (на основе двумерного графика рассеяния)

^-оценка

Межквар- тильное расстояние (метод Тьюки)

Левередж- метод (метод Хосмера — Лемешева)

Индекс

электронного

развития

региона (*,

независимая

переменная)

Санкт-

Петербург,

Москва

Санкт-

Петербург,

Москва

Санкт-

Петербург,

Москва

Санкт-

Петербург,

Москва

Интенсивность распределения микропредприятий (единиц на тысячу населения, у, зависимая переменная)

Санкт-

Петербург,

Москва

Москва

Калининградская область, Новосибирская область, Ярославская область, Санкт- Петербург, Москва

Санкт-

Петербург,

Москва

Из табл. 2.4 очевидно, что разные способы выделения потенциальных аномальных значений приводят и к разным результатам, разному набору наблюдений по независимой и зависимой переменным. Это происходит оттого, что совокупность социально-экономических данных редко бывает полностью симметричной и соответствует правилу трех сигм, так как, по сути, не является случайной выборкой.

Визуальный анализ двумерного графика рассеяния, представленного на рис. 2.6, позволяет сразу отделить два региона, отстоящих от основной группы регионов. Эти необычные точки обведены ; те же регионы выявлены как аномальные на основе z-оценки: значение z для каждого них превышает установленное нормальное расстояние, равное трем среднеквадратическим отклонениям от среднего значения. Известно также, что метод Тьюки, основанный на расчете межквартильного расстояния, завышает число выбросов при высоких значениях коэффициента асимметрии, а данная совокупность имеет ярко выраженную правостороннюю асимметрию по зависимой и независимой переменной: коэффициенты асимметрии составляют 2,37 для индекса электронного развития регионов и 1,76 для плотности распределения микропредприятий. Метод Тьюки выделяет несколько больше выбросов по зависимой переменной. Являются ли эти «добавочные» регионы аномальными либо просто регионами с высокими значениями, не изменяющими параметры модели?

Рис. 2.6. Поле корреляции и визуальный способ выявления выбросов

Более точно на этот вопрос можно ответить, применяя специальные методы поиска выбросов по остаткам регрессионного моделирования (например, использованный здесь метод Хосмера —Лемешева, включенный в стандартные пакеты программ, такие как STATA или SPSS). Первоначально строится модель регрессии по всей совокупности, далее рассчитываются квадраты отклонений фактических данных от выровненных на основе модели и собственно левередж. Левередж — это показатель вклада каждого отдельного наблюдения в теоретическое (предсказанное по модели) значение зависимой переменной.

В пакете STATA алгоритм получения модифицированного графика рассеяния следующий:

• построение поля корреляции, визуальное обнаружение выбросов (.scatter ух);

• получение параметров парной линейной регрессии (.regress ух) по всем наблюдениям;

маркировка наблюдений (.gen id = _п) по порядку представления в таблице исходных данных, для более простой идентификации;

• расчет левережда, нормализованных остатков и построение графика рассеяния по этим данным (,lvr2plot, mlabel(id));

• удаление выбросов (.drop in п/п), где п — номер (id) наблюдения, отмеченного на графике как выброс;

• получение параметров парной линейной регрессии (.regress у х) по оставшимся наблюдениям.

Полученное поле корреляции (рис. 2.7) позволяет более четко отделить аномальные наблюдения от высоких, но находящихся в рамках нормальных границ совокупности. Таким образом, суммируя результаты выявления выбросов, будем считать, что ими являются субъекты РФ Москва и Санкт-Петербург. Исключим их из анализа и построим регрессионную модель снова (табл. 2.5, модель 2).

Рис. 2.7. Модифицированный график рассеяния нормализованных остатков и левереджа

Таблица 2.5

Сравнительная характеристика моделей парной линейной регрессии с выбросами и без выбросов

Модель

Уравнение

регрессии

Я-квадрат

F (значимость F)

р-значение для коэффициента при *

Выбросы

1

У = -6,87 + + 65,88*

0,4844

73,28 (0.000)

0,000

есть

2

у = -5,64 + + 62,33*

0,3288

37,23 (0.000)

0,000

нет

В табл. 2.5 представлены данные, позволяющие убедиться в том, что наличие выявленных выбросов влияет на параметры модели парной линейной регрессии. Причем качество модели может ухудшаться при наличии аномальных значений, а может и улучшаться за их счет, как в нашем примере, оказывая сильное влияние на размер показателей вариации. Модель без выбросов также является значимой, однако показатель детерминации гораздо ниже, F-критерий менее высок, так как выбросы обнаружены только сверху (увеличивающие среднюю и дисперсию).

Одномерные методы выявления выбросов отдельно по зависимой и независимой переменным могут приводить к тому, что по одной переменной могут выделяться одни наблюдения, а по другой — совершенно иные. Исключая из анализа все подозрительные наблюдения, можно добиться резкого сокращения объема совокупности или необоснованного снижения вариации. Особенно нежелателен такой подход в случае анализа регионов, стран, а также других единиц, составляющих целое. Удаление даже одного региона, например, столичного, уже нарушает целостность совокупности. Поэтому рекомендуется использовать разные методы извлечения выбросов, тщательно сопоставив результаты.

При составлении отчета о проведенном исследовании для обоснования выводов и свидетельства добросовестного выполнения работы рекомендуется построить обе модели (с выбросами и без них) и обосновать выбор той или иной модели с помощью дополнительных процедур качественного и количественного анализа. В нашем примере разница между коэффициентами регрессии модели с аномальными значениями и без них может интерпретироваться как разрыв между крупнейшими, наиболее экономически развитыми, городами и остальными регионами, который требует изучения и преодоления.

Пример 2.6

Компания «Бета» проводит собеседования с кандидатами на должность «Директор по продажам». Шесть кандидатов соответствуют данной должности. Чтобы окончательно сделать выбор, специалист по работе с кадрами использует интеллектуальные тесты, рекомендованные экспертами. Результаты тестирования приведены в табл. 2.6. Необходимо также протестировать взвешенную оценку на аномальность для кандидатов с самым высоким значением, чтобы принять решение.

Результаты тестов для кандидатов и взвешенная оценка интеллектуальных способностей.

Таблица 2.6

Канди-

дат

Результаты интеллектуальных тестов

Взве-

шенная

оценка

IQ

Системное мышление

Эруди-

ция

Память

Логическое мышление

1

89

78

50

78

35

7,86

2

100

75

59

86

30

8,33

3

125

98

72

99

38

10,29

4

87

70

69

65

29

7,62

5

98

86

81

90

37

9,33

6

135

82

63

85

36

9,54

Поскольку выборка является малой, содержит всего шесть наблюдений, то нельзя воспользоваться 2-оценками или методом Тьюки. Можно применить Q-тест Диксона, базовая гипотеза которого состоит в том, что выделяющееся наблюдение принадлежит тому же распределению, что и остальная выборка, альтернативная гипотеза утверждает, что данное наблюдение принадлежит иному распределению.

Перед применением теста наблюдения ранжируются, и тестируется самое большое значение. Если значение признается аномальным, то тест применяется для следующего наблюдения. Q-тест расчитывается по формуле

где Q„ — значение критерия Диксона для наблюдения п; х„ — наибольшее значение в ранжированной выборке; хп , — следующее за наибольшим значение в ранжированной выборке; хг — начальное значение ранжированной выборки.

Для выборки кандидатов рассчитаем значение критерия для наибольшего значения:

При объеме выборки п = 6 и уровне значимости а = 0,05 критическое значение теста Диксона составит Q,ai) =0,56. Поскольку фактическое значение не превышает табличное, считаем, что значение взвешенной оценки для кандидата № 3 не является аномальным и в выборке выбросов нет. Для решения практической задачи можно сделать вывод, что кандидаты представляют собой наблюдения из одной совокупности и выбор любого из них гарантирует пополнение команды предприятия интеллектуально одаренным сотрудником.

Q-тест Диксона является довольно простым по технике расчета, поэтому должен применяться с осторожностью. Тест основан на предположении о нормальном распределении (распределении Стьюдента) для совокупности, из которой извлечена выборка. Такое предположение очень непросто принять, имея малые выборки, особенно те, которые не имеют результатов предыдущих исследований для сравнения. Поэтому рекомендуется использовать данный тест для маркировки, но не для удаления наблюдений из выборочной совокупности.

Выявление выбросов на разных этапах обработки данных позволяет разделить единицы, находящиеся в нормальных границах и за их пределами, выявить ошибки наблюдения и даже фиктивные данные. В динамике выбросы представляют собой уровни, подвергшиеся экстраординарному шоку посредством экзогенных или эндогенных воздействий.

Для анализа неравномерности динамики и неоднородности пространственных данных при изучении социально-экономических процессов также подходят традиционные алгоритмы выявления выбросов, хотя зачастую характер распределения таких совокупностей далек от нормального по вполне объективным причинам.

Результаты статистических исследований обычно получены по массивам данных, уже очищенным от ошибок наблюдения. Сталкиваясь с необходимостью работы с первичными данными, где есть пропуски, выделяющиеся значения, важно не растеряться и использовать разнообразные методы обеспечения надежности результатов обработки данных.

  • [1] Iglewicz В. Hoaglirt D.; Mykytka Е. F. «Volume 16: How to Detect and Handle Outliers»,The ASQC Basic References in Quality Control: Statistical Techniques, 1993.
  • [2] Schiffler R. Е. Maximum Z Score and outliers // The American Statistician. 1988. Vol. 42,№ 1. P. 79—80.
 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ РЕЗЮМЕ ПОХОЖИЕ СТАТЬИ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Математика, химия, физика
Медицина
Менеджмент
Строительство
Педагогика
Политология
Политэкономия
Право
Психология
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика