Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ НА ТРАНСПОРТЕ
Посмотреть оригинал

Программное обеспечение информационных систем

Современные технологии обработки данных

Эффективное использование средств электронного получения данных невозможно без их интеграции в системы управления предприятием или технологическими процессами доставки грузов.

Характерные для систем электронной идентификации большие объемы и разнообразные по направлению информационные потоки порождают значительное количество данных. Для принятия правильных и эффективных решений эти данные должны быть своевременно получены, обработаны и доведены до соответствующих исполнителей и руководителей. Для решения таких непростых задач используются современные информационные технологии обработки данных.

Организовав систему поступления информации, ее надо привести к виду, пригодному для анализа и использования для выполнения управленческого воздействия. Решение, позволяющее подготовить информацию для управления предприятием, было найдено и сформулировано в виде концепции хранилища данных (Data Warehouse). Принципиальные отличия информации, помещаемой в хранилище данных, от транзакционных систем сформулированы в требованиях, приведенных в табл. 3.4.

Таблица 3.4

Основные требования к данным в хранилище данных

Наименование требования

Характеристика требования

Предметная ориентированность

Все данные о некотором предмете (бизнес-объекте) собираются (обычно из множества различных источников), очищаются, согласовываются, дополняются, агрегируются и представляются в единой, удобной для их использования в бизнес-анализе форме

Интегрированность

Все данные о различных бизнес-объектах взаимно согласованы и хранятся в едином общекорпоративном хранилище

Неизменчивость

Исходные (статистические) данные, после того как они были согласованы, верифицированы и внесены в общекорпоративное хранилище, остаются неизменными и используются исключительно в режиме чтения

Поддержка хронологии

Данные хронологически структурированы и отражают историю за достаточный для выполнения задач бизнес-анализа и прогнозирования период времени

Хранилища данных выполняют функции предварительной подготовки и хранения данных для системы принятия решений на основе информации из системы управления предприятием (или базы данных предприятия), а также информации из сторонних источников, которые в достаточном количестве стали доступны на рынке информации.

Хранилища данных уже по своей природе являются распределенным решением. В основе концепции хранилищ данных лежит физическое разделение узлов, где выполняется операционная обработка, от узлов, в которых выполняется анализ данных.

Для сбора информации из разнородных (гетерогенных) источников и для ее отражения используются специальные OLAP-технологии. OLAP (On-Line Analytical Processing — анализ процессов в режиме реального времени) — это специальные технологии, позволяющие объединять и представлять многомерные данные и делать из них выборки.

В основе OLAP лежит понятие гиперкуба, или многомерного куба данных, в ячейках которого хранятся анализируемые (числовые) данные, например объемы перевозок. Измерения представляют собой совокупности значений других данных, скажем, наименований заказчиков и названий месяцев года. В простейшем случае двумерного (плоского) куба мы получаем таблицу, показывающую значения объемов перевозок по заказчикам и месяцам. Дальнейшее усложнение модели данных может идти но нескольким направлениям:

  • 1) увеличиваются количества измерений — данные о перевозках не только по месяцам и заказчикам, но и по пунктам назначения; в этом случае куб становится трехмерным и т.д.;
  • 2) усложняется содержимое ячейки — например, может интересовать не только объем перевозок, но и, скажем, чистая прибыль или остаток на складе; в этом случае в ячейке будет несколько значений;
  • 3) вводится иерархия в пределах одного измерения — общее понятие «время» естественным образом связано с иерархией значений: год состоит из кварталов, квартал из месяцев и т.д.

Речь идет не о физической структуре хранения, а о логической модели данных. Другими словами, определяется только пользовательский интерфейс модели данных. В рамках этого интерфейса могут выполняться следующие базовые операции:

Поворот. Замена столбцов строками, и наоборот.

Проекция. При проекции значения в ячейках, лежащих на оси проекции, суммируются по некоторому предопределенному закону.

Раскрытие (drill-down). Одно из значений измерения заменяется совокупностью значений из следующего уровня иерархии измерения; соответственно заменяются значения в ячейках гиперкуба.

Свертывание (roll-up/drill-up). Операция, обратная раскрытию.

Сечение (slice-and-dice). Выборка плоской (двумерной) таблицы значений из многомерного куба.

В зависимости от ответа на вопрос, существует ли гиперкуб как отдельная физическая структура или только как виртуальная модель данных, различают системы MOLAP (Multidimensional OLAP) и ROLAP (Relational OLAP). В первой — гиперкуб реализуется как отдельная БД специальной нереляционной структуры, обеспечивающая максимально эффективный по скорости доступ к данным, но требующая дополнительного ресурса памяти. MOLAP-системы весьма чувствительны к объемам хранимых данных. Поэтому данные из хранилища сначала помещаются в специальную многомерную базу, а затем эффективно обрабатываются OLAP-сервером.

Идея киоска данных (Data Matt) возникла несколько лет назад, когда стало очевидно, что разработка корпоративного хранилища — долгий и дорогостоящий процесс. Это обусловлено как организационными, так и техническими причинами. Киоск данных — это подмножество хранилища данных, организованное для конкретного подразделения фирмы или конкретных пользователей.

Происходящие здесь бизнес-процессы, во-первых, относительно изучены и, во-вторых, не столь сложны, как процессы в масштабах всей компании. Количество работников, вовлеченных в конкретную деятельность, также невелико (рекомендуется, чтобы киоск обслуживал не более 10— 15 человек). При этих условиях с использованием современных технологий удается развернуть киоск подразделения за 3—4 мес. Подчеркнем, что успех небольшого проекта (стоимость которого невелика по сравнению со стоимостью разработки корпоративного хранилища), во-первых, способствует продвижению новой технологии и, во-вторых, приводит к быстрой окупаемости расходов.

При заполнении хранилища агрегированными данными мы должны обеспечить выборку данных из транзакционной базы данных и других источников в соответствии с метаданными, поскольку агрегирование происходит в терминах бизнес-понятий. Так, например, агрегированная величина «объем перевозок груза X в пункт назначения Уза последний квартал» содержит понятия «груз» и «пункт назначения», которые являются бизнес-понятиями данного предприятия.

Технология анализа хранилищ данных, базирующаяся на методах интеллектуального анализа информации и инструментах поддержки принятия решений, называется Data Mining. В частности, сюда входит нахождение трендов и коммерчески полезных зависимостей.

Интеллектуальный анализ данных обычно определяют как метод поддержки принятия решений, основанный на анализе зависимостей между данными. В рамках такой общей формулировки обычный анализ отчетов, построенных по БД, также может рассматриваться как разновидность анализа данных. Для автоматизации поиска зависимостей между данными используют два подхода. В первом случае пользователь сам выдвигает гипотезы относительно зависимостей между данными. Фактически традиционные технологии анализа развивали именно этот подход. Действительно, гипотеза приводила к построению отчета, анализ отчета — к выдвижению новой гипотезы и т.д. Это справедливо и в том случае, когда пользователь применяет такие развитые средства, как OLAP, поскольку процесс поиска по-нрежнему полностью контролируется человеком. Во многих системах Data Mining в этом процессе автоматизирована проверка достоверности гипотез, что позволяет оценить вероятность тех или иных зависимостей в БД. Типичным примером может служить вывод: вероятность того, что рост перевозок груза X обусловлен ростом перевозок груза У, составляет 0,75.

Второй подход основывается на том, что поиск зависимостей между данными осуществляется автоматически. Количество программных продуктов, выполняющих автоматический поиск зависимостей, говорит о растущем интересе производителей и потребителей к системам именно такого типа. Это позволяет повысить эффективность работы за счет верно найденной, заранее неизвестной зависимости.

Процессы анализа данных подразделяются на три большие группы: поиск зависимостей, прогнозирование и анализ аномалий. Поиск зависимостей состоит в просмотре БД в целях автоматического выявления зависимостей. Проблема здесь заключается в отборе действительно важных зависимостей из огромного количества существующих в БД. Прогнозирование предполагает, что пользователь может предъявить системе записи с незаполненными полями и запросить недостающие значения. Система сама анализирует содержимое базы и делает правдоподобное предсказание относительно этих значений. Анализ аномалий — это процесс поиска подозрительных данных, сильно отклонившихся от устойчивых зависимостей.

В системах анализа данных применяется чрезвычайно широкий спектр математических, логических и статистических методов: от анализа деревьев решений до нейронных сетей.

 
Посмотреть оригинал
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы