Меню
Главная
Авторизация/Регистрация
 
Главная arrow Менеджмент arrow Моделирование систем и процессов

Понятие об интеллектуальном анализе данных

С интеллектуальным анализом данных тесно связаны два англоязычных термина — Knowledge Discovery in Databases (KDD) и Data Mining. Они развиваются в рамках направления "бизнес-аналитика" — это инструменты, используемые для преобразования, хранения, анализа, моделирования и доставки информации в ходе работы над задачами, связанными с принятием решений на основе фактических данных. При этом с помощью этих средств лица, принимающие решения, должны при использовании подходящих технологий получать нужные сведения и в нужное время. Термин KDD, что можно перевести как "обнаружение знаний в базах данных", возник в конце 1980-х гг. на основе концепции разведочного анализа данных, предложенной Дж. Тьюки в 1962 г.2 Под ним подразумевается не конкретный алгоритм или математический аппарат, а последовательность действий, которую необходимо выполнить для обнаружения полезного знания. Данный исследовательский процесс не зависит от предметной области; это набор атомарных операций, комбинируя которые можно получить нужное решение. KDD включает в себя этапы подготовки данных, выбора информативных признаков, очистки, построения моделей, постобработки и интерпретации полученных результатов. За построение моделей отвечают методы Data Mining — обнаружение и "сырых" данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин был введен Г. Пятецким-Шапиро в 1989 г.1 Английское словосочетание "Data Mining" не получило устоявшегося перевода на русский язык. В литературе используются следующие варианты перевода: добыча данных, интеллектуальный анализ данных, глубинный анализ данных, просев информации, извлечение данных, интеллектуальный анализ данных. Некоторые исследователи считают неудачными большинство вариантов перевода ("добыча данных" — разве добывают данные, а не знания?; "интеллектуальный анализ" — а что тогда "неинтеллектуальный" анализ?) и оперируют прямыми англоязычными терминами.

В настоящее время сложно точно сказать, когда и где возник интеллектуальный анализ данных. Некоторые исследователи, в частности И. А. Кацко, рассматривая Data Mining как современную парадигму анализа данных, отмечают, что анализ данных — это процесс движения по спирали от простых методов к более сложным, и выделяют три подхода в анализе данных:

  • • вероятностный — обычно с предположением нормальности распределения изучаемых величин (математическая статистика);
  • • геометрический — данные не имеют вероятностной природы и образуют в многомерном пространстве структуры с определенными свойствами;
  • • содержательный, предполагающий достижение целей моделирования.

Первые два подхода реализуются в прикладной статистике, третий — в Data Mining. И первый, и второй подходы постулируют тот факт, что имеет место некоторая модель, обычно линейная, и наша цель — найти для нее оптимальные в определенном смысле параметры. Методы ИАД с помощью алгоритмов машинного обучения итеративно подбирают модель, и определенном смысле наилучшим образом описывающую исходные данные. В этом смысле машинное обучение близко к непараметрической идентификации, которая предполагает, что нужно в ходе решения определить модель и дать оценку ее параметров. Реализуется конструктивный подход к построению моделей, базирующийся на индуктивной теории и опирающийся на идею возможности описания данных с использованием рядов примитивов на основе их селекции по определенным критериям. Сегодня к методам непараметрической идентификации можно отнести большинство методов Data Mining.

Рассуждая об истоках ИАД, не совсем правильно считать, что он появился на Западе. Хорошо известны пионерские работы в этой области отечественных исследователей: М. М. Бонгард (программа "Кора"), В. К. Финн (/5А/-метод), А. Г. Ивахненко (теория самоорганизации математических моделей и се реализация — МГУА), выполненные в 60-е гг. XX в. Корректнее говорить о том, что методы ИАД первоначально получили широкое распространение на практике именно в США и Западной Европе, превратив их в коммерческую технологию.

Процесс обнаружения новых знаний в данных включает гипотезу, эксперта и аналитика и помогающие им методы. Поэтому ИАД можно отнести к методам организации сложных экспертиз.

В интеллектуальном анализе данных принято считать, что найденное знание должно обладать следующими свойствами:

  • - знание отражает результат исследования системы (познания объективной реальности);
  • — знание выражено определенным, понятным человеку образом (использует общепринятые символы, понятия, естественный язык);
  • - знание должно быть компактным (по форме, описанию), что делает его доступным к пониманию, интерпретации и дальнейшему использованию.

Data Mining чаще всего решает четыре задачи — ассоциация, кластеризация, классификация и регрессия. Кратко охарактеризуем их.

  • 1. Ассоциация — выявление зависимостей между связанными событиями, указывающих, что из события X следует событие Y. Такие правила называются ассоциативными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом потребительской корзины (market basket analysis). Если события можно упорядочить по времени наступления, то говорят о последовательных шаблонах — ассоциативных правилах, в которых важен порядок следования событий.
  • 2. Кластеризация — это группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность объектов. Объекты внутри кластера должны быть "похожими" друг на друга и отличаться от объектов, вошедших в другие кластеры. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация.
  • 3. Классификация — установление функциональной зависимости между входными и дискретными выходными переменными. При помощи классификации решается задача отнесения объектов (наблюдений, событий) к одному из заранее известных классов.
  • 4. Регрессия — установление функциональной зависимости между входными и непрерывными выходными переменными. Прогнозирование чаще всего сводится к решению задачи регрессии.

В современном ИАД принято выделять два класса моделей Data Mining', описательные (дескриптивные), которые необходимы для лучшего понимания исследуемой системы, известных фактов и наблюдений, и предсказательные, необходимые для понимания новых фактов о системе.

Описательная аналитика ближе к сложной визуализации и разведочному анализу данных в том плане, что результат моделирования — компактное описание множества объектов в виде кластеров, правил, групп, а для построения моделей не требуется задания целевой переменной. В первую очередь к описательным моделям относятся ассоциативные правила и кластеры. Основным недостатком описательных моделей является их относительная простота, не позволяющая эффективно решать задачи прогнозирования.

Предсказательное моделирование позволяет предсказывать новые состояния объектов, для чего используются алгоритмы Data Mining для задач классификации и регрессии.

Также Data Mining решает следующие задачи: анализ отклонений — выявление наиболее нехарактерных шаблонов; анализ связей (link analysis) — процесс анализа совокупности взаимоотношений между разными объектами для выявления тенденций и характеристик; анализ выживаемости (survival analysis) — модели для оценивания зависимостей между характеристиками объекта с временем его жизни. Нередко эти задачи при помощи специальных приемов сводятся к перечисленным выше четырем основным задачам Data Mining.

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении лесов и деревьев решений, искусственных нейронных сетей, машин опорных векторов. К методам Data Mining нередко относят статистические методы (анализы — дескриптивный, корреляционный и регрессионный, факторный, дисперсионный, компонентный, дискриминантный, временных рядов). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).

Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений для интерпретации, что позволяет использовать инструментарий Data Mining людьми, не имеющими специальной математической подготовки. В то же время применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.

Методы Data Mining лежат на стыке информатики, баз данных, статистики и искусственного интеллекта. Большинство методов ИАД было первоначально разработано в рамках теории искусственного интеллекта в 1970—1980-х гг., но получило распространение только в последние годы, когда проблема интеллектуализации обработки быстро растущих объемов корпоративных данных потребовала их использования в качестве надстройки над хранилищами данных.

Технология ИАД является междисциплинарной областью исследования. Она использует методы таких дисциплин, как теория информации, системы искусственного интеллекта, теория вероятностей, математическая статистика, машинное обучение. Отсюда обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining. Многие из таких систем интегрируют в себе сразу несколько подходов. Тем не менее, как правило, в каждой системе имеется какая-то ключевая компонента, на которую делается главная ставка. При этом основное внимание уделяется вычислительной эффективности используемых алгоритмов при обработке больших объемов данных.

 
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы