Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Интеллектуальная версия метода К-средних

П4.6.2. Аномальные группы и интеллектуальный метод К-средних

Поскольку критерий метода /С-средних включает в себя требование поиска разбиения, которое состояло бы из больших аномальных кластеров, метод аномальной группы может быть использован для автоматического определения и количества кластеров, и начальных центров в методе /С-средних. Для этого будем последовательно применять его, сначала ко всему множеству, потом к множествам объектов, остающихся после удаления полученных аномальных групп. Главное - это не менять положения 0 после таких удалений. Затем — взять центры самых больших аномальных групп. Мы называем метод iC-срсдних, предваренный этим дополнением, «интеллектуальным» методом ^-средних, или иК-средних, потому что он освобождает пользователя от необходимости участия в инициализации.

В методе иК-средних пользователю предлагается задать числовой порог разрешения ? с тем, чтобы отбросить все те аномальные группы, число элементов в которых равно или меньше t. Ничего не отбрасывается только при t = 0. При t- 1 все аномальные группы, состоящие только из одного объекта, одиночки, рассматриваются как не заслуживающие внимания и отправляются обратно в набор данных. Если t = 10, все группы, состоящие из 10 или менее объектов, отбрасываются, так как являются слишком маленькими и нс заслуживающими внимания при данном уровне разрешения; на больших данных нужны более крупные детали.

Часто при анализе данных аномальные группы-одиночки возникают из-за ошибок в данных, как, скажем, когда человеку приписан возраст 5000 лет. Выделение аномальных групп при этом может служить полезным средством контроля данных.

Рабочий пример 4.7. Итерации метода аномальных групп по данным о прибрежных городах

Многократно примененный к нормализованным на размах признаков данным о прибрежных городах, алгоритм выделения аномальной группы получил в конце концов 12 групп, из которых 5 — одиночки. Эти одиночки — не артефакт метода, они действительно имеют довольно странные комбинации значений признаков. Например, объект 19 (Лискерд, 7044 жителей) имеет неожиданно большое количество гостиниц (6) и служб такси (2). Список семи неодиночных кластеров представлен в табл. 4.17, в порядке их отделения алгоритмом выделения аномальной группы.

Данная структура кластеров нс сильно изменится, если согласно алгоритму иК-средних будет применен метод К-средних, инициализированный семью центрами нетривиальных аномальных групп (пять одиночек отправлены обратно в данные). Более того, похожие результаты были получены и при кластеризации набора всех 1300 «фермерских» английских городов, описанных 18 характеристиками их развития: неодиночные кластеры имеют вполне похожие центры.

Вопрос 4.13. Почему в табл. 4.16 вклад аномальной группы 4, равный 18,6%, больше, чем вклад предыдущей группы 3, 10,0%?

Ответ. Из-за гораздо большего количества объектов, 18 в группе 4 против б в группе 3. Даже если центр группы 3 значительно дальше от 0, чем центр группы 4 (а именно это причина того, что группа 3 получена раньше, чем группа 4), вклад рассчитывается с учетом количества объектов (см. формулу (4.12)).

Таблица 4.16

Группы, полученные итеративным применением алгоритма выделения аномальной группы на данных о прибрежных городах

Номер группы

Размер

Содержимое

Вклад в разброс, %

1

8

4, 9, 25, 26, 29, 35,41,44

35,1

3

6

5,8, 12, 16,21,43

10,0

4

18

2, 6, 7, 10,13, 14, 17, 22, 23, 24, 27, 30, 31, 33, 34, 37, 38, 40

18,6

5

2

3,32

2,4

6

2

1,11

1,6

8

2

39, 42

1,7

И

2

20,45

1,2

Самостоятельная работа

4.6.3. Примените метод аномальных групп к стандартизованным данным об ирисах (см. табл. 1.2) в итеративном режиме.

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы