Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Кластеризация методом К-средних

П4.5. Параллельный метод К-средних и его особенности

Метод /(-средних — наиболее популярный метод кластеризации, который в разных формах представлен во всех основных статистических пакетах, таких как SPSS и SAS, а также в пакетах анализа и майнинга данных, таких как Clementine, iDAtool и DBMiner. По степени вовлеченности признаков он относится к типу (в). Метод очень популярен во многих приложениях, например в анализе изображений, маркетинговых исследованиях, биоинформатике и медицинской информатике.

Процесс нахождения кластеров по методу /(-средних стартует с выбора К центров — обычно в качестве таковых берутся какие-либо случайные объекты из анализируемого множества. Затем последовательно выполняются итерации, каждая из которых состоит из двух шагов:

  • а) обновление кластеров (вокруг центров);
  • б) обновление центров (внутри кластеров).

Итерации повторяются, пока процесс не сойдется.

Шаги нормализации: (i) вычитание из столбцов их средних значений, (ii) затем деление столбцов на их размахи и (iii) дополнительное деление трех последних

столбцов, отвечающих трем категориям признака «Сектор экономики», на у[з. Последняя строка: вклады признаков в исходные данные, вычисленные как суммы квадратов элементов соответствующего столбца.

Итерации метода А'-средних при К = 3

Рис. 4.11. Итерации метода А'-средних при К = 3:

а — инициализация центров, представленных звездочками; 6 — обновление кластеров с помощью правила минимального расстояния; на рисунке, к примеру, пунктирными линиями показаны расстояния от центров до каждого объекта; в кластеры сформированы; г — центры сформированы как центры масс кластеров

Рисунок 4.11 иллюстрирует одну итерацию процесса формирования кластеров. Согласно этой логике, как бы центры ни были выбраны изначально, они заменяются в процессе вычислений на те, которые представляют места скопления объектов.

Теперь опишем процесс формирования кластеров более точно.

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы