Метод К-средних (К-means)

Общая характеристика.

Напомним, что метод кластеризации К-средних (K-Means) - это неиерархический метод, позволяющий разделить объекты на заданное число кластеров в соответствии с достаточно "тонким" критерием, представляющим собой статистику Фишера: отношение межкластерной дисперсии к внутрикластерной. В результате разделение осуществляется так, чтобы изменчивость переменных внутри кластеров была малой, между кластерами - большой.

Или, что то же самое, объекты, входящие в один и тот же кластер, были расположены в пространстве переменных близко, а входящие в разные кластеры - далеко друг от друга.

В отличие от иерархических методов метод К-средних не рассматривает все возможные варианты разбиения на заданное число кластеров. Начиная работу с какого-то, как правило, произвольного варианта, метод последовательно меняет разбиение до тех пор, пока критерий оптимизации не перестает меняться. В силу этого, если на пути алгоритма встретился не глобальный максимум критерия, а небольшая "горка", метод может прекратить свою работу, не "дойдя" до глобально оптимального разбиения. Поэтому при его использовании очень важны начальные условия.

Другая проблема при работе с данным методом состоит в том, что исследователю приходится из каких-то соображений задавать число кластеров.

Таким образом, этот метод кластеризации существенно отличается от рассмотренного нами выше агломеративного метода иерархической кластеризации.

Приведем пример использования метода К-средних в деятельности авторов.

Пример 13.11

Сегментирование клиентов фитнес-центра

Проведем сегментирование бывших клиентов фитнес-центра по ответам респондентов на вопрос о том, какими из предоставляемых центром услуг они пользовались. Предварительно для определения оптимального числа кластеров и нахождения их центров была выполнена иерархическая кластеризация. Оказалось, что рациональным числом кластеров является четыре. По результатам предварительного разбиения на четыре кластера были рассчитаны центры этих кластеров, координаты этих центров были сохранены в файле.

Затем разбиение клиентов на четыре кластера было уточнено методом К-средних, в качестве начальных условий были взяты центры кластеров, сохраненные в файл. На рис. 13.23 показано, каким образом в 14-й англоязычной и 17-й русскоязычной версиях SPSS были выбраны необходимые для кластеризации переменные и сделаны указанные выше назначения.

На рис. 13.24 показаны условия, при достижении которых итерации должны быть прекращены. Такими условиями могут служить либо достижение максимально допустимого числа итераций (в данном случае 100), либо тот факт, что между очередными итерациями критерий изменился меньше, чем на заданное пороговое значение. Единицами измерения при этом служат проценты от минимального расстояния между начальными центрами кластеров. Если значение критерия равно, например, 0,02 итерации прекращаются, когда ни один из центров кластеров не сдвигается в результате итерации на расстояние, превышающее 2% от наименьшего расстояния между центрами любых начальных кластеров. Если, как предлагается по умолчанию, задать пороговое значение равным нулю, итерации будут продолжаться до тех пор, пока не окажется, что очередная итерация не переместила из кластера в кластер ни одного объекта.

Назначение переменных, числа кластеров и начальных центров разбиения на кластеры

Рис. 13.23. Назначение переменных, числа кластеров и начальных центров разбиения на кластеры

Условия прекращения итераций

Рис. 13.24. Условия прекращения итераций

Приведенное диалоговое окно позволяет также заказать режим использования скользящих средних (Use running means). В этом режиме центры кластеров пересчитываются не как обычно, т.е. после того как все объекты в очередной раз распределены между кластерами, исходя из близости к их центрам, а после каждого "зачисления" объекта в тот или иной кластер.

На рис. 13.25 показано, как заказывается сохранение в файле данных о номерах кластеров и о расстояниях от каждого объекта до "своего" центра. Если сделать такие назначения, в файле появятся два столбца с соответствующей информацией. В частности, по значениям во втором из этих столбцов можно сказать, насколько каждый респондент похож на основную массу представителей кластера.

Наконец, на рис. 13.26 показано, как заказать выдачу в файл отчета данных о том, какие первоначальные центры были нами заданы для кластеризации, а также как вывести в файл отчета справочную таблицу, аналогичную таблицам дисперсионного анализа. Эта таблица помогает проследить, по каким переменным построенные нами кластеры существенно отличаются друг от друга, а по каким - незначительно.

Перейдем к рассмотрению результатов кластеризации методом К-средних. Прежде всего в файл отчета выводится таблица с координатами центров получившихся в итоге кластеров (табл. 13.7).

Заказ записи результатов кластеризации в файл с исходными данными

Рис. 13.25. Заказ записи результатов кластеризации в файл с исходными данными

Заказ выдачи в файл отчета данных о начальных условиях для кластеризации и таблицы, аналогичной таблицам дисперсионного анализа

Рис. 13.26. Заказ выдачи в файл отчета данных о начальных условиях для кластеризации и таблицы, аналогичной таблицам дисперсионного анализа

Таблица 13.7. Координаты центров кластеров в пространстве исходных переменных

Посещали

Номера кластеров

1

2

3

4

Тренажерный зал

1,00

,86

,00

1,00

Сауна

,00

,95

,28

1,00

Солярий

,13

,44

,02

,24

Инфракрасные кабины

,04

,82

,02

,00

Зал аэробики

,19

,66

,14

,00

Массажный кабинет

,06

,19

,02

,16

Поскольку кластерный анализ в данном случае выполнялся на бинарных (т.е. содержащих только нули и единицы) переменных, в клетках таблицы приведены доли представителей кластера, которые пользовались данной услугой. Мы видим, например, что все без исключения представители первого кластера посещали тренажерный зал, 19% от их числа посещали зал аэробики, 13% - солярий. Остальными услугами мало кто из них пользовался, причем сауну не посещал никто из представителей первого кластера. Таким образом, данному стилю пользования услугами клуба естественно дать условное название: "Тренажерный зал".

Совсем другой стиль пользования у представителей четвертого кластера: все они посещали и тренажерный зал, и сауну, а некоторые - солярий и массажный кабинет (24 и 16% соответственно). Этот стиль мы назвали "Тренажерный зал и сауна".

Представители второго кластера пользуются многими разными услугами фитнес-центра. Даже такими редко используемыми, как услуги массажиста, пользуется почти каждый пятый из них (19%). А 15% пользуются услугами салона красоты, которыми в целом по опросу пользуются лишь 8%, вследствие чего эта переменная не учитывалась при построении кластеров. Условное название этого стиля - "Разнообразные услуги".

Третий кластер - полная противоположность второму: его представители ни разу не посещали тренажерный зал, лишь по 2% от их числа посещали солярий, инфракрасные кабины и массажный кабинет. 14% из них ходили на аэробику, 28% - в сауну, и это все, что они делали в клубе, кроме посещения бассейна. Поскольку бассейн посещают почти все посетители клуба (93%), соответствующая переменная в кластеризации не участвовала. Тем не менее оказалось, что бассейн посещали 100% представителей третьего кластера.

Таким образом, с помощью кластерного анализа удалось выявить четыре совершенно разных стиля пользования услугами фитнес-клуба. Условное название этого стиля - "Бассейн"

Следующая таблица демонстрирует наполненность кластеров (табл. 13.8).

Таблица 13.8. Число респондентов в каждом кластере

Кластер 1

48,000

2

73,000

3

43,000

4

50,000

Valid (действительные)

214,000

Missing (пропущенные)

,000

Мы видим, что наиболее многочисленным (73 человека, или 34% от числа всех опрошенных) является второй кластер, программа пребывания представителей которого в клубе наиболее разнообразна. Меньше же всего клиентов (43 человека, или 20%) в составе второго кластера, где мало пользуются услугами клуба. Стили же "Только тренажеры" и "Тренажеры и сауна" почти одинаково распространены: 48 и 50 человек, 22 и 23% соответственно. Как уже отмечалось, при использовании метода К-средних можно вывести в файл отчета таблицу, аналогичную результатам дисперсионного анализа (табл. 13.9).

Таблица 13.9. Таблица результатов дисперсионного анализа (ANOVA)

Посещали

Cluster

Error

F

Sig.

Mean

Square

df

Mean

Square

df

Тренажерный зал

10,415

3

,041

210

253,421

,000

Сауну

12,792

3

,059

210

216,084

,000

Солярий

1,842

3

,159

210

11,610

,000

Инфра

красные

кабины

10,292

3

,065

210

159,169

,000

Зал аэробики

5,180

3

,138

210

37,621

,000

Массажный кабинет

,339

3

,104

210

3,261

,022

Дисперсионный анализ (ANOVA) используется в случаях, когда выборка разделена по какому-либо признаку и требуется проверить, различаются ли средние значения исходных переменных при разных значениях этого признака. Для каждого признака по F-критерию Фишера проверяется нулевая гипотеза о том, что наблюдаемые различия средних значений случайны, а на самом деле (во всей исследуемой совокупности, а не выборке) они совпадают, т.е. что межкластерная дисперсия незначительно отличается от внутрикластерной. Отметим, однако, что в случае кластерного анализа такая строгая статистическая интерпретация данных таблицы дисперсионного анализа невозможна, поскольку объекты специально раскладывались по кластерам так, чтобы различия стали значимыми. Использовать таблицу можно лишь в чисто информационных целях: из нее видно, по каким исходным переменным средние значения различаются существенно, а по каким - нет. Так, мы видим, что слабее всего различается между кластерами доля респондентов, пользующихся услугами массажного кабинета.

 
< Пред   СОДЕРЖАНИЕ     След >