Меню
Главная
Авторизация/Регистрация
 
Главная arrow Менеджмент arrow ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В МЕНЕДЖМЕНТЕ
Посмотреть оригинал

Способы аналитической обработки данных

Аналитическая обработка данных — это анализ данных, требующий соответствующего методического обеспечения и определенного уровня подготовки специалистов.

Современные информационные технологии дают возможность автоматизировать процессы анализа накопленной первичной информации, строить аналитические модели, получать готовые решения и использовать их на практике. Основными требованиями, которые предъявляются к методам анализа, являются эффективность, простота, автоматизм. Эта концепция лежит в основе двух современных технологий: Data Mining и Knowledge Discovery in Databases (KDD).

Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности (определение Г. Пятецкого-Шапиро — одного из основателей этого направления).

Технология Data Mining направлена на поиск неочевидных закономерностей. Этапами анализа данных являются:

  • 1) классификация (classification) — обнаружение признаков, характеризующих группы объектов исследуемого набора данных — классы. Методы решения, используемые для задачи классификации: методы ближайшего соседа (nearest neighbor) и ^’-ближайшего соседа (k-nearest neighbor)-, байесовские сети {Bayesian networks)-, индукция деревьев решений; нейронные сети {neural networks)-,
  • 2) кластеризация {clustering) разбиение объектов на группы, так как классы объектов изначально не определены. Пример метода решения задачи кластеризации: самоорганизующиеся карты Кохонена — нейронная сеть с обучением без учителя. Важной особенностью этих карт является их способность отображать многомерные пространства признаков на плоскость, представив данные в виде двумерной карты;
  • 3) ассоциация {associations) — выявление закономерностей между свя- занными событиями в наборе данных. Эти закономерности выявляются не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно, например, алгоритм Apriori;
  • 4) последовательность {sequence), или последовательная ассоциация {sequential association), — поиск временных закономерностей между транзакциями, т.е. устанавливаются закономерности не между одновременно наступающими событиями, а между событиями, связанными во времени. Ассоциация — это последовательности с временным лагом, равным нулю. Правило последовательности: после события X через определенное время произойдет событие У;
  • 5) прогнозирование {forecasting) — строится на основе особенностей исторических данных, т.е. происходит оценивание опущенных или же будущих значений целевых численных показателей. Для решения задач прогнозирования используются методы математической статистики, нейронные сети и др.;
  • 6) определение отклонений или выбросов {deviation detection), анализ отклонений или выбросов — обнаружение и анализ данных, наиболее отличающихся от общего множества данных;
  • 7) оценивание {estimation) предсказание непрерывных значений признака;
  • 8) анализ связей {link analysis) — задача нахождения зависимостей в наборе данных;
  • 9) визуализация {visualization, graph mining) — создание графического образа анализируемых данных. Используются графические методы, показывающие наличие закономерностей в данных, например, представление данных в 2D и 3D измерениях;
  • 10) подведение итогов (summarization) — описание конкретных групп объектов из анализируемого набора данных.

KDD - это процесс выявления полезных знаний из коллекции данных. Эта технология включает в себя вопросы: подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining (DM), постобработки данных и интерпретации полученных результатов.

Процесс Knowledge Discovery in Databases состоит из следующих шагов:

  • 1) постановка задачи — анализ задач пользователя и особенности области приложения, выбор набора входных и выходных параметров;
  • 2) подготовка исходного набора данных — создание хранилища данных и организация схемы сбора и обновления данных;
  • 3) предобработка данных — основана на применении методов Data Mining, с точки зрения этого метода данные должны быть качественны и корректны;
  • 4) трансформация, нормализация данных — приведение информации к пригодному для последующего анализа виду;
  • 5) Data Mining — автоматический анализ данных, основанный на применении различных алгоритмов для нахождения знаний (нейронные сети, деревья решений, алгоритмы кластеризации, установления ассоциаций и т.д.);
  • 6) постобработка данных — интерпретация результатов и применение полученных знаний в бизнес приложениях.
 
Посмотреть оригинал
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы