Меню
Главная
Авторизация/Регистрация
 
Главная arrow Статистика arrow Статистика

Этапы кластерного анализа (1-2)

Рассмотрим этапы кластерного анализа с позиций математического содержания и методики.

этап. Представление исходных данных в виде матрицы

На первоначальном этапе исходные данные представляются в виде матрицы. Очевидно, что матрица может иметь как прямоугольную, так и квадратную форму.

Прямоугольная матрица исходных данных в многомерном статистическом анализе чаще упоминается как матрица "объект – свойство" и является наиболее распространенной формой представления исходных данных.

В табл. 10.2 наглядно изображена в общем виде прямоугольная матрица исходных данных с п элементами – объектами исследования. В этом качестве могут выступать предприятия машиностроения, коммерческие банки, студенты университета, которые описываются посредством k признаков.

В матрице значение Ху соответствует г-му объекту, который характеризуется j-м показателем, где г = 1,2,..., n,j= 1,2,..., к.

Таблица 10.2

Прямоугольная матрица исходных данных

Объект

(элемент)

Переменная

1

2

п

В случае если мы производим попарные сравнения объектов по некоторому свойству, матрица исходных данных представляет собой квадратную матрицу. Например, расстояние между городами России, результаты футбольного матча между командами и т.п. В табл. 10.3 представлена квадратная матрица исходных данных, у которой число строк и столбцов одинаково.

Таблица 10.3

Квадратная матрица исходных данных

Объекты (элементы)

1

2

п

Объекты

(элементы)

1

2

п

В многомерном статистическом анализе такая матрица называется "матрицей парных сравнений". Представим содержание таблицы в виде матрицы

(10.1)

где i=l,2,..., п; т = 1,2,..., п; Ху – результат сравнения г-го объекта с т-м объектом.

На результаты вычислений при кластерном анализе оказывает влияние то, какие используются единицы измерения и какую величину (масштаб) имеют переменные. Устранить зависимость переменных от единиц измерения и масштаба позволяет процедура стандартизации исходных данных. Таким образом, переменные приобретают одинаковый вес при кластеризации.

В ходе стандартизации осуществляется переход от матрицы исходных данных xj к матрице стандартизированных значений z,y. Чаще всего используется формула перехода:

где Xj – среднее значение у-го признака; σ,• – среднее квадратическое отклонение у-го признака.

Среднее значение у-го признака рассчитывается по следующей формуле:

где п – число элементов (объектов).

Среднее квадратическое отклонение у-го признака рассчитывается как:

При процедуре стандартизации все числовые пропорции сохраняются, но все переменные не имеют единиц измерения. Это позволяет проводить с ними вычислительные операции, как для переменных, имеющих одинаковые единицы измерения.

В том случае, если исходные переменные имеют одинаковые единицы измерения, проводить стандартизацию нет необходимости.

этап. Определение сходства объектов

Определение сходства объектов связано с понятием однородности объектов. Определение критерия однородности объектов является наиболее трудным этапом кластерного анализа и в связи с этим наименее формализованным в задаче автоматической классификации. Однородность объектов определяется мерой степени близости (сходства) объектов или различия между объектами.

В качестве меры различия чаще используется расстояние между объектами, обозначаемое как du (от слова "distance"), обеспечивающее более простой алгоритм действий. К тому же этот алго

(10.3)

(10.4)

ритм хорошо реализован в компьютерных программах, таких как Statistica, SPSS и др.

В зависимости от исходных данных может быть использован тот или иной вид расстояний. Важно отметить, что критерием выбора вида расстояния является правильная (точнее сказать адекватная) интерпретация профиля (особенностей) кластеров.

 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы