Меню
Главная
Авторизация/Регистрация
 
Главная arrow Математика, химия, физика arrow ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА ДЛЯ ЭКОНОМИСТОВ
Посмотреть оригинал

13.2. Нормировка (стандартизация) данных

В кластерном анализе разбиение на кластеры существенно зависит от абсолютных значений исходных данных. Эту проблему решают с помощью нормировки (стандартизации). Для этого из всех значений по каждому фактору вычитают выборочное среднее этого фактора и полученные разности делят на среднее квадратическое отклонение:

где {xjy i = 1,2, п) — исходные данные, х — выборочное среднее, a Snвыборочное среднеквадратическое отклонение.

При этом стандартизованные значения будут иметь выборочные средние, равные нулю, и выборочные дисперсии, равные единице. Другими словами, все факторы сводятся в одну «весовую категорию».

13.3. Формальная постановка задачи кластеризации

Пусть X — множество объектов, Y — множество номеров (имен, меток) кластеров. Задана функция расстояния между объектами р(х, х'). Имеется конечная обучающая выборка объектов Хп = {хх, х2, ..., хт) а X. Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике р, а объекты разных кластеров существенно отличались. При этом каждому объекту .г, е X11 приписывается номер кластера

Алгоритм кластеризации — это функция а: X —» У, которая любому объекту х е X ставит в соответствие номер кластера у е Y. Множество Y в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров с точки зрения того или иного критерия качества кластеризации.

Кластеризацию можно трактовать как обучение без учителя. Она отличается от классификации (обучения с учителем) тем, что метки исходных объектов уI изначально не заданы и даже может быть неизвестно само множество У.

Решение задачи кластеризации принципиально неоднозначно, и тому есть несколько причин.

  • 1. Не существует однозначно наилучшего критерия качества кластеризации. Известны целый ряд эвристических критериев, а также ряд алгоритмов, не имеющих четко выраженного критерия, но осуществляющих достаточно разумную кластеризацию «по построению». Все они могут давать разные результаты. Следовательно, для определения качества кластеризации требуется эксперт предметной области, который мог бы оценить осмысленность выделения кластеров.
  • 2. Число кластеров, как правило, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием. Это справедливо только для методов дискриминации, так как в методах кластеризации выделение кластеров идет за счет формализованного подхода на основе мер близости.
  • 3. Результат кластеризации существенно зависит от метрики, выбор которой, как правило, также субъективен и определяется экспертом. Но стоит отметить, что есть ряд рекомендаций к выбору мер близости для различных задач.
 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы