Принципы построения группировки.

При построении группировки следует придерживаться следующей схемы:

  • 1) выбирают группировочный признак или комбинацию признаков;
  • 2) определяют число групп и величину интервала;
  • 3) непосредственно группируют статистические данные;
  • 4) составляют таблицу или графическое отображение, в которых представляют результаты группировки;
  • 5) делают вывод.

Существуют также методы многомерных группировок, наиболее разработанный из них — кластерный анализ.

Кластерный анализ — математическая процедура многомерного анализа, позволяющая на основе множества показателей, характеризующих ряд объектов (например, испытуемых), сгруппировать их в классы (кластеры) таким образом, чтобы объекты, входящие в один класс, были более однородными, сходными по сравнению с объектами, входящими в другие классы. На основе численно выраженных параметров объектов вычисляются расстояния между ними, которые могут выражаться как в евклидовой метрике (наиболее употребимой), так и в других метриках.

Название кластерный анализ происходит от английского слова cluster — гроздь, скопление. Впервые в 1939 г. исследователем Трионом был определен предмет кластерного анализа и сделано его описание. Главное назначение кластерного анализа — разбиение множества исследуемых объектов и признаков на однородные в соответствующем понимании группы или кластеры. Это означает, что решается задача классификации данных и выявления соответствующей структуры в ней. Общим для всех исследований, использующих кластерный анализ, являются пять основных процедур:

  • 1) отбор выборки для кластеризации;
  • 2) определение множества признаков, по которым будут оцениваться объекты в выборке;
  • 3) вычисление значений той или иной меры сходства между объектами;
  • 4) применение метода кластерного анализа для создания групп исходных данных;
  • 5) проверка достоверности результатов кластерного решения.

Каждый из перечисленных шагов играет существенную роль при использовании кластерного анализа в прикладном анализе данных. При этом шаги 1, 2 и 5 целиком зависят от решаемой задачи и должны определяться пользователем. Шаги 3 и 4 выполняются программой кластерного анализа.

В целом, многие методы кластерного анализа — эвристические процедуры, которые не имеют, как правило, строгого статистического обоснования, но позволяют свести к минимуму вероятность допущения ошибки при трактовке результатов кластерного анализа.

Разные кластерные методы могут порождать различные решения для одних и тех же данных. Это обычное явление в большинстве прикладных исследований. Окончательным критерием считают удовлетворенность исследователя результатами кластерного анализа.

Разработанные кластерные методы образуют семь основных семейств.

  • 1. Иерархические агломеративные методы.
  • 2. Иерархические дивизивные методы.
  • 3. Итеративные методы группировки.
  • 4. Методы поиска модальных значений плотности.
  • 5. Факторные методы.
  • 6. Методы сгущений.
  • 7. Методы, использующие теорию графов.

По данным ряда исследований, около 2/3 приложений кластерного анализа, используют иерархические агломеративные методы. Рассмотрим сущность этих методов на примере наиболее простого метода одиночной связи.

Процесс кластеризации начинается с поиска двух самых близких объектов в матрице расстояний. На последующих шагах к этой группе присоединяется объект, наиболее близкий к одному из уже находящихся в группе. По окончании кластеризации все объекты объединяются в один кластер.

Отметим несколько важных особенностей иерархических агломератив- ных методов:

  • 1) все эти методы просматривают матрицу расстояний размерностью N х N (где N — число объектов) и последовательно объединяют наиболее схожие объекты. Именно поэтому они называются агломеративными (объединяющими);
  • 2) последовательность объединения кластеров можно представить визуально в виде древовидной диаграммы, часто называемой дендрограммой;
  • 3) для понимания этого класса методов не нужны обширные знания матричной алгебры или математической статистики. Вместо этого дается правило объединения объектов в кластеры.

Сначала ищутся два наиболее близких объекта (предположим, А и В). Расстояние между объектами А и В равно R. В один кластер объединяются объекты, расстояние между которыми меньше, чем (10 - С) /?, где С — четкость классификации, параметр управления процессом, принимающий значения от 1 до 10, который может меняться пользователем. При С - 10 на каждом шаге объединяются только два самых близких элемента, т.е. имеет место иерархическая агломеративная процедура в чистом виде. Однако, как показывает практика использования кластерного анализа, пользователю важнее выделить в пространстве группы объектов с разной плотностью. В этом случае величину С необходимо уменьшать. Минимальное расстояние R пересчитывается на каждом шаге кластерного анализа.

Объединение. На каждом шаге кластерного анализа происходит объединение объектов, т.е. из нескольких объектов образуется один кластер. Процедура кластеризации заканчивается, когда все первичные объекты исчерпаны. Допустим, на каждом шаге объединяются п объектов. Из этих объектов образуется один кластер как центр тяжести этих объектов (среднее арифметическое по каждой координате).

Размерность задачи уменьшается на величину п - 1 {п объектов удаляются, один добавляется). Далее производится пересчет матрицы расстояний.

Рассмотрим кластерный анализ наблюдений. В результате вычислительной процедуры каждое наблюдение относится к той или иной группе. Кластеризация проводится на основе одной из двух метрик:

1) евклидово расстояние:

2) корреляционное расстояние: R = |1 - г |,

где. — две точки; гху — парный коэффициент

корреляции между х и у.

На результаты кластеризации существенное влияние оказывает выбор меры расстояния. На практике их лучше бы называть мерами несходства: для большинства используемых коэффициентов большие значения соответствуют большему сходству, в то время как для мер расстояния все наоборот. Считается, что два объекта идентичны, если описывающие их переменные принимают одинаковые значения. В этом случае расстояние между ними равно нулю. Меры расстояния обычно не ограничены сверху и зависят от выбора шкалы (масштаба) измерения. В программе кластеризация проводится на основе метрик: евклидово расстояние; корреляционное расстояние; расстояние городских кварталов (манхэттенское); расстояние Махала- нобиса (обобщенное расстояние), вычисление которых показаны в табл. 2.1.

Таблица 2.1

Расчетные формулы метрик кластеризации

Показатель

Формула расчета

1

Евклидово расстояние

2

Корреляционное расстояние

3

Расстояние городских кварталов

4

Расстояние Махаланобиса

Сегодня существует достаточно много методов кластерного анализа. Остановимся на некоторых из них.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >