ИАД и математическая статистика

Если пройтись по списку методов Data Mining, то среди них можно обнаружить давно известные и изученные алгоритмы математической статистики (линейная, логистическая регрессия) и, конечно, многомерные статистические методы (например, кластерный анализ как структурный подход к выделению однородных групп объектов подробно был освещен в литературе по прикладной статистике еще в 1970—1980-е гг.1). Возникает естественный вопрос: а чем Data Mining отличается от статистических методов? Обратимся к табл. 8.1.

Таблица 8.1. Сравнение Data Mining и статистических методов

Особенности

Статистические методы

Data Mining

Парадигма/Подход

Дедуктивная статистическая теория

Объединение дедуктивной статистической теории и индуктивных эвристических подходов

Тип задач

Хорошо поставленные

Плохо поставленные

Тип анализа

Подтверждающий

Разведочный

Роль выводов

Большая роль явных выводов

Нет явных выводов

Цель сбора данных и их анализа

Дезориентированный подход к сбору данных

Первичные данные не собираются с целью анализа и моделирования

Размер совокупности

Небольшая совокупность однородных данных

Большая совокупность неоднородных данных

Особенности

Статистические методы

Data Mining

Число переменных

Небольшое (до 10)

Большое (свыше 30—50)

Тип входных переменных

Интервальные (большая часть) и категориальные (меньшая часть) с небольшим числом уникальных значений

Любая смесь интервальных, категориальных и даже текстовых данных

Мультиколлинеарность

Широкий диапазон степени мультиколлинеарности с нетерпимостью к мультиколлинеарности

Явная мультиколлинеарность есть всегда, алгоритмы достаточно устойчивы к мультиколлинеарности

Предположение о виде распределения, гомоскедастичность, выбросы, пропуски

Нетерпимость к нарушению предположения о виде распределения, выбросам и пропускам, требование гомоскедастичности

Алгоритмы достаточно устойчивы к несоблюдению гомоскедастичности, выбросам, пропускам, не требуется знать вид распределения

Типы моделей

Линейная/параметрическая/непараметрическая в низко-размерных пространствах входных признаков; требование предположения о виде нелинейных зависимостей

Нелинейные и непараметрические в высокой размерности входных признаков; предположения о виде нелинейных зависимостей не требуется

Как видно из таблицы" важное отличие статистики от интеллектуального анализа данных состоит в разных подходах к самому процессу анализа. В статистике это конфирматорный (подтверждающий) подход, когда в рамках какой-либо теории или модели сформулированы четкие гипотезы, связи между переменными и факторами достаточно определены и исследователь их может прямо указать. Он выступает как средство проверки соответствия сформулированной гипотезы полученным эмпирическим данным. И АД опирается на разведочный подход, при котором какие-то факторы обнаруживаются вначале на эмпирическом уровне, а после этого исследователь предлагает определенную их теоретическую интерпретацию.

Итак, Data Mining — это прикладная наука, в которой математического аппарата нет, в том смысле, что нет конечного набора базовых фактов, из которых следует, как решать задачи. Поэтому любой метод или алгоритм, который способен эффективно в вычислительном плане работать с большими выборками, быть устойчивым к корреляциям, шумам, выбросам, пропускам и моделировать нелинейные зависимости, может быть отнесен к Data Mining.

Для оценки сложности практических задач, с которыми не способны справиться методы математической статистики, приведем несколько примеров конкурсных испытаний, предлагаемых в рамках мировых соревнований по интеллектуальному анализу данных.

Задача, предложенная на KDD Cup 20091, заключалась в предсказании вероятностей ухода, покупки продукта и совместной продажи для французской телекоммуникационной компании Orange. Для разработки моделей была представлена выборка по 50 тыс. клиентов с 15 тыс. переменных, из которых 14 740 измерены в интервальной шкале. Организаторы конкурса специально представили избыточное число переменных, большинство из которых не несло информации, необходимой для решения задачи. Качество результата оценивалось по другой выборке с использованием общепринятого в бинарной классификации функционала AUC-ROC.

Задача, предложенная на KDD Сир 2012, была из области рекомендательных систем для социальных сетей. Имея историю но нескольким миллионам пользователей социальной сети — микроблога Tencent Weibo (крупнейший онлайн-сервис в Китае), требовалось построить модели и спрогнозировать, подпишется ли пользователь на предложенные ему аккаунты: людей, группы, организации.

Статистические методы изначально разрабатывались для обработки небольших однородных совокупностей данных. Методы ИАД ориентированы на эффективную обработку больших наборов данных. Поэтому статистические методы в Data Mining представляют собой скорее взаимовыгодный союз, в результате которого появились новые алгоритмы и подходы (например, взаимодействия переменных в регрессиях, бустинг, бэггинг, ансамбли и другие приемы из машинного обучения). Их различные комбинации позволяют решать многие реальные задачи: качественно прогнозировать, точно выявлять целевые аудитории, предсказывать развитие событий, управлять рисками и т.п.

Охарактеризуем некоторые из наиболее распространенных методов ИАД и пакетов прикладных программ с их реализацией.

 
< Пред   СОДЕРЖАНИЕ     След >