Меню
Главная
УСЛУГИ
Авторизация/Регистрация
Реклама на сайте
 
Главная arrow Экономика arrow Управленческий анализ
< Предыдущая   СОДЕРЖАНИЕ   Следующая >

Методы интеллектуального анализа данных

Управление современным бизнесом немыслимо без прогнозирования и анализа данных, который в зависимости от целей исследования можно разделить на следующие виды.

Информационно-поисковый и визуальный анализ

В ходе такого анализа, не приобретая никаких новых знаний о предмете, имеем возможность рассмотреть его по частям и с разных точек зрения. Осуществляется это, как правило, путем четко сформулированного запроса к реляционной базе данных. Этот вид анализа лежит в области детализированных данных, никак их не обобщая.

Оперативно-аналитический анализ, или OLAP

Данные агрегируются, предоставляя аналитику возможность получить любую степень обобщения в любом разрезе. В отличие от информационно-поискового анализа, здесь можем обнаружить различного рода закономерности в данных, которые иначе были бы не видны. OLAP вводит нас в сферу обобщенных данных.

Интеллектуальный анализ, или Data Mining

Направлен на выявление скрытых закономерностей в данных, например повторяющихся шаблонов или кластеров. Иначе говоря, на его основе можно получить модели, позволяющие лучше понимать данные и предсказывать их поведение. Data Mining в действительности предполагает непосредственное обнаружение знаний.

С середины 1990-х гг. в информационной индустрии наблюдается рост интереса к технологиям анализа данных, основанным на технологиях систем поддержки принятия решений. За ними закрепился ставший уже привычным в англоязычной литературе термин Data Mining, или Knowledge Discovery. Однозначного перевода на русский язык Data Mining не имеет ("добыча данных", "извлечение информации" и т. д.), поэтому в большинстве случаев используется в оригинале. Наиболее удачным непрямым переводом считается термин "интеллектуальный анализ данных".

В 1960-1970-е гг. советские математики под руководством В. Н. Вапника разработали метод обобщенного портрета, основанный на построении оптимальной разделяющей гиперплоскости. Требование оптимальности заключалось в том, что обучающие объекты должны быть удалены от разделяющей поверхности настолько далеко, насколько это возможно. В 1990-е гг. метод получил мировую известность и после некоторой переработки и серии обобщений стал называться методом опорных векторов (Support Vector Machines, SVM). Классическое определение данного термина предложено в 1996 г. в работе ученых У. Файада, Г. Пятецки-Шапиро, П. Смита "Нетривиальный процесс обнаружения новых, потенциально полезных, корректных и интерпретируемых закономерностей в данных".

Популярность Data Mining сегодня можно сравнить с популярностью данного направления полстолетия назад, на заре компьютерной эпохи. Тогда, правда, этот термин не был известен, но много говорили об искусственном интеллекте, о нейронных сетях и распознавании образов. Однако за немногими исключениями практическую реализацию теории пришлось отложить до тех пор, пока аппаратная и программная инфраструктура не развилась до современного уровня. И сегодня, по завершении 50-летнего цикла развития, вновь обращаемся к решению задач анализа, уже обладая мощными вычислительными системами и системами управления базами данных, развитой операционной и языковой средой.

Структура методов Data Mining представлена на рис. 2.5

Методы интеллектуального анализа данных

Рис. 2.5. Методы интеллектуального анализа данных

Методы Data Mining делятся на две группы:

o Supervised Learning (обучение с учителем);

o Unsupervised Learning (обучение без учителя).

В первом случае задача анализа данных, например классификация, осуществляется в несколько этапов. Это один из способов машинного обучения, в ходе которого испытуемая система принудительно обучается с помощью примеров. Между входами и эталонными выходами может существовать некоторая зависимость, но она не известна. Известна только конечная совокупность прецедентов, называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость, т.е. построить алгоритм, способный для любого объекта выдать достаточно точный ответ. Для измерения точности ответов, так же как и в обучении на примерах, может вводиться функционал качества. Сначала с помощью какого-либо алгоритма Data Mining строится модель анализируемых данных - классификатор. Затем классификатор подвергается "обучению". Иными словами, проверяется качество его работы и, если оно неудовлетворительно, происходит "дополнительное обучение" классификатора. Так продолжается до тех пор, пока не достигнем требуемого уровня качества или не убедимся, что выбранный алгоритм не работает корректно с данными либо же сами данные не имеют структуры, которую можно выявить.

Unsupervised Machine Learning - один из способов машинного обучения. С его помощью испытуемая система спонтанно обучается выполнять поставленную задачу без вмешательства со стороны экспериментатора. Как правило, это пригодно только для задач, в которых известны описания множества объектов (обучающей выборки) и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами. Например, закономерности в покупках, совершаемых клиентами большого магазина. Очевидно, что если эти закономерности существуют, то модель должна их представить и неуместно говорить об ее обучении. Отсюда и название "обучение без учителя".

Обучение без учителя часто противопоставляется обучению с учителем, когда для каждого обучающего объекта принудительно задается "правильный ответ" и требуется найти зависимость между стимулами и реакциями системы.

Сфера применения методов интеллектуального анализа достаточно разнообразна. Приведем лишь некоторые направления.

 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Политэкономия
Право
Психология
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика