Средства Data Mining (DM)

Средства DM подразумевают извлечение ("раскопку", "добычу") данных и направлены на выявление отношений между информацией, хранящейся в цифровых базах данных предприятия, которые аналитик может использовать для построения моделей, позволяющих количественно оценить степень влияния интересующих его факторов. Кроме того, такие средства могут быть полезны для построения гипотез о возможном характере отношений информации в цифровых базах данных предприятия.

Технология добычи текстовых данных (Text Mining - ТМ) представляет собой набор инструментов, позволяющий анализировать большие наборы информации в поисках тенденций, шаблонов и взаимосвязей, способные помочь в принятии стратегических решений.

Технология Image Mining (IM) содержит средства для распознавания и классификации различных визуальных образов, хранящихся в базах данных предприятия или полученных в результате оперативного поиска из внешних информационных источников.

Для решения проблем по обработке и хранению всех данных используют следующие подходы:

  • 1) создание нескольких систем резервного копирования или одной системы распределенного документооборота, которые позволяют сохранять данные, но обладают медленным доступом к сохраненной информации по запросу пользователя;
  • 2) построение интернет-систем, обладающих высокой гибкостью, но не приспособленных для реализации поиска и хранения текстовых документов;
  • 3) внедрение интернет-порталов, которые хорошо ориентированны на запросы пользователей, но не обладают описательной информацией относительно загружаемых в них текстовых данных.

Системы обработки текстовой информации, свободные от перечисленных выше проблем, можно разделить на две категории: системы лингвистического анализа и системы анализа текстовых данных.

Основными элементами технологии Text Mining являются:

  • o суммаризация (summarization);
  • o тематический поиск (feature extraction);
  • o кластеризация (clustering);
  • o классификация (classification);
  • o ответ на запросы (question answering);
  • o тематическое индексирование (thematic indexing);
  • o поиск по ключевым словам (keyword searching);
  • o создание и поддержка офтаксономии (oftaxonomies) и тезаурусов (thesauri).

К программным продуктам, реализующим технологию Text Mining, относятся:

IBM Intelligent Miner for Text - набор отдельных утилит, запускаемых из командной строки, или скиптов, независимых друг от друга (основной упор делается на механизмы добычи данных - information retrieval);

Oracle InterMedia Text - набор, интегрированный в СУБД, позволяющий наиболее эффективно работать с запросами пользователей (позволяет работать с современными реляционными СУБД в контексте сложного многоцелевого поиска и анализа текстовых данных);

Megaputer Text Analyst - набор встраиваемых в программу СОМ - объектов, предназначенных для решения задач Text Mining.

Интеллектуальные информационные технологии

Сегодня в области автоматизации управления анализ информации доминирует на предварительной стадии подготовки решений - обработки первичной информации, декомпозиции проблемной ситуации, что позволяет познать лишь фрагменты и детали процессов, а не ситуацию в целом. Для преодоления этого недостатка надо научиться строить базы знаний, используя опыт лучших специалистов, а также генерировать недостающие знания.

Использование информационных технологий в различных сферах человеческой деятельности, экспоненциальный рост объемов информации и необходимость оперативно реагировать в любых ситуациях потребовали поиска адекватных путей решения возникающих проблем. Эффективнейшим из них является путь интеллектуализации информационных технологий.

Под интеллектуальными информационными технологиями (ИТТ) обычно понимают такие информационные технологии, в которых предусмотрены следующие возможности:

  • o наличие баз знаний, отражающих опыт конкретных людей, групп, обществ, человечества в целом, при решении творческих задач в определенных сферах деятельности, традиционно считавшихся прерогативой интеллекта человека (например, такие плохо формализуемые задачи, как принятие решений, проектирование, извлечение смысла, объяснение, обучение и т.п.);
  • o наличие моделей мышления на основе баз знаний: правил и логических выводов, аргументации и рассуждения, распознавания и классификации ситуаций, обобщения и понимания и т.п.;
  • o способность формировать вполне четкие решения на основе нечетких, нестрогих, неполных, недоопределенных данных;
  • o способность объяснять выводы и решения, т.е. наличие механизма объяснений;
  • o способность к обучению, переобучению и, следовательно, к развитию.

Технологии неформализованного поиска скрытых закономерностей в данных и информации Knowledge Discovery (KD) базируются на новейших технологиях формирования и структурирования информационных образов объектов, что ближе всего лежит к принципам обработки информации интеллектуальными системами.

Информационные технологии поддержки процесса принятия решений Decision Support (DS) представляют собой оболочки экспертных систем или специализированные экспертные системы, которые предоставляют возможность аналитикам определять отношения и взаимосвязи между информационными структурами в базах структурированной информации предприятия, а также прогнозировать возможные результаты принятия решений.

Тенденции развития ИИТ. Системы связи и коммуникаций. Глобальные информационные сети и ИИТ могут в корне поменять наши представления о компаниях и самом умственном труде. Присутствие сотрудников на рабочем месте станет практически не нужным. Люди могут работать дома и взаимодействовать друг с другом при необходимости через сети. Известен, например, успешный опыт создания новой модификации самолета "Боинг-747" распределенным коллективом специалистов, взаимодействующих по Интернету. Местонахождение участников каких-либо разработок будет играть все меньшую роль, зато возрастает значение уровня квалификации участников. Другая причина, определившая бурное развитие И ИТ, связана с усложнением систем коммуникации и решаемых на их основе задач. Потребовался качественно новый уровень "интеллектуализации" таких программных продуктов, как системы анализа разнородных и нестрогих данных, обеспечения информационной безопасности, выработки решений в распределенных системах и т.п.

Образование. Уже сегодня дистанционное обучение начинает играть важную роль в образовании, а внедрение ИИТ позволит существенно индивидуализировать этот процесс сообразно с потребностями и способностями каждого обучаемого.

Быт. Информатизация быта уже началась, но с развитием ИИТ появятся принципиально новые возможности. Постепенно компьютеру будут передаваться все новые функции: контроль над состоянием здоровья пользователя, управление бытовыми приборами, такими как увлажнители, освежители воздуха, обогреватели, ионизаторы, музыкальные центры, средства медицинской диагностики и т.п. Другими словами, системы станут еще и диагностами состояния человека и его жилища. Будет обеспечено комфортное информационное пространство в помещениях, где информационная среда станет частью окружающей человека среды.

Перспективы развития ИИТ. Представляется, что в настоящее время ИИТ подошли к принципиально новому этапу своего развития. Так, за последние 10 лет существенно расширились возможности ИИТ за счет разработки новых типов логических моделей, появления новых теорий и представлений. Узловыми точками в развитии ИИТ считаются:

  • o переход от логического вывода к моделям аргументации и рассуждения;
  • o поиск релевантных знаний и порождение объяснений;
  • o понимание и синтез текстов;
  • o когнитивная графика, т.е. графическое и образное представление знаний;
  • o мультиагентные системы;
  • o интеллектуальные сетевые модели;
  • o вычисления, основанные на нечеткой логике, нейронных сетях, генетических алгоритмах, вероятностных вычислениях (реализуемых в различных комбинациях друг с другом и с экспертными системами);
  • o проблема метазнаний.

Новой парадигмой создания перспективных ИИТ стали мультиагентные системы. Здесь предполагается, что агент - это самостоятельная интеллектуальная система, имеющая свою систему целеполагания и мотивации, свою область действий и ответственности. Взаимодействие между агентами обеспечивается системой более высокого уровня - метаинтеллектом. В мультиагентных системах моделируется виртуальное сообщество интеллектуальных агентов - объектов, которые автономны, активны, вступают в различные социальные отношения - кооперации и сотрудничества (дружбы), конкуренции, соревнования, вражды и т.п. Социальный аспект решения современных задач и есть фундаментальная особенность концептуальной новизны передовых интеллектуальных технологий - виртуальных организаций, виртуального общества.

 
< Пред   СОДЕРЖАНИЕ     След >