Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Постановка проблемы кластеризации

Проблема суммаризации, или агрегации, данных охватывает различные задачи, такие как измерение ненаблюдаемых факторов, построение кластеров, формирование аннотаций текстовых документов и пр. В отличие от задач коррелирования (см. рис. 4.7, б), признаки объектов здесь не разделяются на входные и выходные параметры рассматриваемого процесса. Скорее можно полагать все имеющиеся признаки данных целевыми признаками, а сформированные агрегаты — кластеры или ненаблюдаемые признаки — «скрытыми» входными признаками (см. рис. 4.7, а).

Таким образом, проблема суммаризации концептуально может рассматриваться как аналог проблемы коррелирования; только надо включить сюда правило восстановления исходных данных исходя из их агрегированного представления. Тогда исходные данные будут играть роль целевых, а восстановленные, «модельные» данные — роль предсказания. Такой подход приводит нас к необходимости формирования нс одного правила, как в задачах исследования корреляции, а двух: 1) правило агрегации данных (кодировщик); 2) правило восстановления исходных данных исходя из их агрегированного представления (расшифровщик или декодер).

Диаграмма, описывающая задачу суммаризации данных с расшифровщиком

Рис. 4.8. Диаграмма, описывающая задачу суммаризации данных с расшифровщиком (я), задачу выявления корреляции между переменными (б)у и задачу суммаризации данных без расшифровщика (в). Прямоугольники представляют наблюдаемые данные, овалы — вычислительные структуры, шестиугольники — сравнение наблюдений с предсказаниями

В отличие от проблемы коррелирования признаков в проблеме суммаризации правило порождения исходных данных должно быть специфицировано именно для восстановления исходных данных по их агрегированному представлению, а не прогноза новых данных. Именно поэтому мы говорим о расшифровщике, а не правиле предсказания. В литературе по машинному обучению проблеме суммаризации не уделяется должного внимания. Поэтому зачастую ее понимают упрощенно, без дальнейшего восстановления данных — так, как показано на рис. 4.8, в.

Приведенное осмысление структуры проблемы суммаризации данных приводит к пониманию необходимости иметь обратную связь через сравнение восстановленных данных с самими исходными данными, что делает задачу суммариза- ции похожей на задачу коррелирования (см. рис. 4.8, а в сравнении с рис. 4.8, б). При этом расшифровщик выступает инструментом отображения пространства агрегированных данных в пространство исходных данных. Сравнение «целевых» данных, полученных из агрегированного представления с помощью расшифровщика, с исходными данными позволяет говорить о естественном критерии качества рассматриваемого метода суммаризации: метод тем лучше, чем меньше разница между исходными и восстановленными данными. В учебнике автора [17] рассмотрены методы именно такого рода (см. рис. 4.8, а). Из них в данном пособии отражены методы кластер-анализа, предназначенные для формирования кластеров — множеств близких друг к другу объектов.

Рассмотрим различные виды структур данных на рис. 4.9: отчетливая структура кластеров на рисунке а, «капля» на рисунке б и неопределенное «облако» на рисунке г.

Есть мнение, что термин «кластеризация» должен применяться исключительно к структурам данных, представленным на рис. 4.9, а ив, хотя на рисунке (в) можно увидеть три или семь кластеров в зависимости от уровня гранулярности. На рис. 4.9, б нет «естественных» кластеров, тогда как на рис. 4.9, г часть объектов организована в кластеры, а часть — нет.

Четкая структура кластеров на а и в; данные без четкой структуры б иг

Рис. 4.9. Четкая структура кластеров на а и в; данные без четкой структуры б иг

Чтобы кластеры служили моделями натуральных классов и категорий, они должны быть не просто найдены, но также и концептуально объяснены. Действительно, говоря о классе как элементе какой-либо классификации, мы всегда имеем в виду двоякую структуру. С одной стороны, класс — это понятие, встроенное в соответствующий фрагмент знания (часто это называют интенсиональной интерпретацией), а с другой стороны, класс может быть представлен множеством соответствующих ему предметов реального мира (это называют экстенсиональной интерпретацией). Например, «береза» это дерево — элемент биологической таксономии, обладающий такими-то признаками и свойствами. С другой стороны, объем этого понятия хорошо представлен всеми экземплярами березы, растущими в лесах, лугах, городах и пр. Подобным же образом для эмпирических классов — т.е. кластеров, эти два подхода, построение и описание, должны сосуществовать.

Как показано на рис. 4.10 слева, кластер можно описать без больших ошибок, если он отделен от остальных объектов. Использование такого подхода может быть отражено в следующем разделении методов нахождения кластеров.

Иллюстрация проблем описания кластеров в терминах признаков. Кластер, состоящий из треугольников на левом рисунке, хорошо описывается предикатом «а1

Рис. 4.10. Иллюстрация проблем описания кластеров в терминах признаков. Кластер, состоящий из треугольников на левом рисунке, хорошо описывается предикатом «а1<х<а2 и Ы<у<Ь2». Аналогичный кластер на нравом рисунке не может быть хорошо описан с помощью интервальных предикатов без использования ошибок первого и второго рода

Типы методов кластер-анализа в зависимости от уровня вовлеченности признаков:

  • (а) кластеры получают непосредственно в терминах признаков (данный способ часто называют концептуальной кластеризацией);
  • (б) кластеры получают одновременно с трансформацией пространства признаков, что делает кластеры более четкими; данное направление совсем молодое и пока не очень развито;
  • (в) сначала получают кластеры как подмножества объектов, а затем уже производят их описание — такой способ является самым распространенным в настоящее время.
 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы