Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ИНФОРМАЦИОННЫЕ СИСТЕМЫ В ЭКОНОМИКЕ
Посмотреть оригинал

Теоретические основы построения, организации функционирования и проектирования систем научно-технической информации

Роль научно-технической информации в развитии экономики. Для

функционирования и экономики, и любой организации нужен весь спектр информации, приведенный на рис. 1.1.

Научно-техническая информация — основа развития всех общественно-экономических институтов. Прогрессирование общества происходит на базе инновационных процессов, которые инициируются передачей информации от предшествующего поколения к последующему посредством института семьи, школ, академий, университетов, архивов, музеев, библиотек и других институтов социальной памяти. Основными институтами социальной памяти являются библиотеки, музеи, архивы и другие хранилища информации, которые накапливают ее и передают от предшествующего поколения к последующему, сохраняя ее в течение длительных периодов с момента возникновения. В то же время при оформлении информации в виде документов, создании хранилищ, архивов она в определенной мере «омертвляется», и необходимы меры по ее «оживлению», т.е. обеспечивающие активизацию ее использования, что в 1960-е гг. стало осуществляться на основе реализации функций переработки и распространения информации, обеспечиваемых органами системы научно-технической информации.

Применение системно-целевого подхода при создании Государственной системы научно-технической информации. В большинстве развитых стран из разрозненных информационных служб были созданы центры НТИ, а в ряде стран — и национальные системы НТИ. В нашей стране такая система, так же как и при создании АСУ, формировалась на основе системно-целевого подхода как Государственная система научно-технической информации (ГСНТИ) 119, 201, расширяющая возможности библиотек, являющихся основными хранилищами культурного наследия любого общества, путем создания специальных органов НТИ, выполняющих функции обработки (реферирование, подготовка аналитических обзоров и т.п.), избирательного распространения научно-технической информации, издания сигнальных, обзорных, экспресс-информаций, ориентированных на развитие науки в различных отраслях.

В соответствии с системно-целевым подходом в 1970-е гг. были подготовлены и утверждены Техническое задание[1] и Единый порядок[2] разработки ГСНТИ. Целями государственной системы научно-технической информации являются обеспечение формирования и эффективного использования государственных ресурсов научно-технической информации, их интеграция в мировое информационное пространство и содействие созданию рынка информационных продукции и услуг.

В состав ГСНТИ входят научно-технические библиотеки, общегосударственные, отраслевые и региональные органы НТИ, обеспечивающие сбор, храпение и обработку отечественных и зарубежных источников научно-технической информации, формирование, ведение и организацию использования федеральных, отраслевых и региональных информационных фондов и баз данных, составляющих государственные ресурсы научно-технической информации. В структуре ГСНТИ предусмотрены также отделы или бюро научно-технической информации (ОНТИ, БТИ) на предприятиях, в научно-исследовательских институтах и образовательных учреждениях.

Основной принцип функционирования ГСНТИ — централизованная одноразовая обработка мирового информационного потока документов в области науки и техники федеральными органами НТИ и научно-техническими библиотеками и многократное использование потребителями информации из федеральных фондов через сеть информационных организаций в отраслях, регионах, на предприятиях, в научно-исследовательских и других организациях.

Основными видами научно-технической информации являются реферативные журналы, формируемые Всероссийским институтом научно-технической информации (ВИНИТИ) РАН, Институтом научной информации по общественным наукам (ИНИОП) РАИ, отраслевыми органами НТИ; патенты и авторские свидетельства, монографии, результаты научно-исследовательской и опытно-конструкторской работы (монографии, статьи, отчеты). Вторичные информационные издания: сигнальная информация, библиографические указатели, экспресс-информация, обзорно-аналитическая информация, обобщающие и пропагандирующие новые источники НТИ; результаты аналитико-синтетической переработки информации (аналитические обзоры, аналитические подборки по запросам сведений о документах, содержащих научно-техническую информацию); фактографическая и концептуально-фактографическая информация (идеи и факты, извлеченные из научных документов) и т.д.

В настоящее время ряд изданий вторичной информации формируется в электронном виде на основе баз данных ведущих органов НТИ федерального уровня. С начала 1990-х гг. в компьютерных сетях началось предоставление возможности широкой аудитории пользователей ознакамливаться с электронными вариантами выпускаемых в стране компьютерных изданий.

Существуют различные виды информационного обслуживания, реализуемые в системе НТИ. Основными можно считать следующие:

  • регламентное обслуживание в форме подготовки и издания обзорных и реферативных информаций, библиографических указателей и т.п., или обслуживание по стандартным запросам;
  • • оповещение отдельных специалистов (абонентов) о текущих публикациях, представляющих для них потенциальный интерес, путем избирательного (адресного) распределения информации (ИРИ) по «профилям интересов», сформулированных потребителями, или дифференцированного обслуживания руководителей (ДОР) по мере поступления информации, необходимой для принятия управленческих решений;
  • ретроспективный поиск, т.е. отыскание документов, в которых находятся сведения по конкретным запросам, в массиве всех накопленных источников информации, что может осуществляться либо в форме подготовки тематических подборок, либо в оперативном режиме.

Наряду с основными существуют более полные классификации видов обслуживания. В частности, в [20, с. 247] приводится обобщенная классификация по нескольким признакам.

В настоящее время в России в основном сохраняются органы НТИ, предусмотренные в исходной структуре ГСНТИ, которую иногда называют российской государственной системой НТИ (РГСНТИ)[3]. Однако новые экономические условия привели к пересмотру основных принципов ее создания.

Развитие информационных технологий, создание сети Интернет, казалось бы, решают проблемы поиска информации по запросам пользователей. В то же время для повышения эффективности обеспечения информацией научных работников и руководителей организаций целесообразно создавать системы ИРИ, ДОР, ИОВ в системах работы с населением типа «Одно окно» и т.д. Поэтому специалистам по информационным системам полезно ознакомиться с основами теории документального информационного поиска и разработки информационно-поисковых систем. Знание теории информационного поиска полезно и для совершенствования информационно-поисковых систем Интернет.

Понятие о документальном информационном поиске и информационно-поисковой системе. Теория информационного поиска сформировалась при исследовании ДИПС НТИ.

Под информационным поиском в таких системах понимается некоторая последовательность операций, выполняемых с целью отыскания документов (статей, научно-технических отчетов, описаний к авторским свидетельствам и патентам, книг и т.д.), содержащих определенную информацию (с последующей выдачей самих документов или их копий) или с целью выдачи фактических данных, представляющих собой ответы на заданные вопросы [20, с. 248].

Массив элементов информации, в котором производится информационный поиск, был условно назван поисковым массивом [20].

Процесс поиска документов может быть формализованно описан в терминах теории множеств следующим образом: D — некоторое множество документов или библиотека (поисковый массив); Q — множество информационных запросов; R — отношение, свойство, при наличии которого любому q е Q ставится в соответствие подмножество D' а Д называемое ответом на информационный запрос.

Очевидно, что прочитать каждый документ информационной базы при поиске необходимого практически невозможно. Поэтому на протяжении истории развития информационного поиска разрабатывались и совершенствовались различные методы поиска. Каждому документу, вводимому в поисковый массив, ставится в соответствие поисковый образ документа (ПОД), который представляет собой характеристику, отражающую основное смысловое содержание документа (этим ПОД отличается от кода, присваиваемого информационному элементу в фактографических информационных системах). В виде такой же краткой характеристики — поискового предписания или поискового образа запроса (ПОЗ) должен быть сформулирован и информационный запрос. Благодаря этому процедура поиска может быть сведена к простому сопоставлению поисковых образов документов с поисковым предписанием. Однако такое сопоставление допустимо лишь в случае, если ПОД и ПОЗ описаны в терминах единого языка.

Для реализации процедуры описания и документов и запросов с помощью ПОД и ПОЗ разрабатывают ИПЯ. Для сопоставления ПОД и ПОЗ применяют различные критерии поиска или критерии смыслового соответствия (КСС). Точность поиска определяется точностью отображения документов и запросов с помощью их поисковых образов и степенью совпадения ПОД и ПОЗ. Поэтому возможна неполнота выдачи документов либо, напротив, «поисковый шум», которые представляют собой своеобразную плату за облегчение процедуры информационного поиска.

Для оценки качества поиска вводят специальные критерии. Обобщенные критерии качества поиска — релевантность и пертинентность [20, с. 282-287].

Под релевантностью понимается соответствие выдачи запросу, под пер- тинентностью — соответствие выдачи потребностям лица, для которого осуществляется поиск информации. Предлагаются и используются различные конкретные критерии количественной оценки релевантности, кратко рассматриваемые ниже.

Информационный поиск осуществляется с помощью информационно- поисковой системы. Структура и функционирование конкретной ИПС зависят от вида и состава информационных источников, от способов реализации информационного поиска. В то же время есть некоторые общие принципы построения и функционирования ИПС, которые кратко рассматриваются в данной главе.

Понятие об информационно-поисковой системе. Под информационнопоисковой системой первоначально понималась некоторая совокупность или комплекс связанных между собой отдельных частей, предназначенных для выявления в каком-либо множестве элементов информации (документов, сведений и т.д.), которые отвечают на информационный запрос, предъявляемый к системе [20].

С учетом приведенного выше описание процесса информационного поиска ИПС (IPS) А. И. Черный определил следующим образом[4]:

где D — некоторое множество документов или библиотека (поисковый массив); Q — множество информационных запросов; D' — ответ на информационный запрос; R — множество отношений, свойств, при наличии которых любому запросу q{ е Q ставится в соответствие подмножество D'.

Более полно А. И. Черный предложил представить ИПС в виде совокупности четырех основных компонентов:

где LS — логико-семантический аппарат (включающий информационнопоисковые языки — один или более, правила индексирования и критерии выдачи); D — поисковый массив (т.е. определенное множество снабженных поисковыми образами документов, в котором отыскиваются необходимые); TS — технические средства (т.е. какие-то приспособления или устройства, которые необходимы для записи и хранения поисковых образов, для хранения документов и осуществления процесса сопоставления поисковых образов документов с поисковым предписанием или поисковым образом запроса); N — люди, взаимодействующие с системой (т.е. те, кто пользуются данной ИПС и обслуживают ее — осуществляют индексирование документов и информационных запросов, выбирают стратегию поиска, а также выполняют другие интеллектуальные операции, без которых невозможен информационный поиск).

Затем для обеспечения возможности автоматизации процедуры информационного поиска было предложено [20] выделить в ИПС два уровня рассмотрения — абстрактный и конкретный.

Абстрактной ИПС была названа совокупность ИПЯ (retrieval language — RL), правил индексирования (IND) и критерия выдачи или критерия смыслового соответствия (KSS):

Конкретной ИПС названа практически реализованная система, включающая массив документов D, в котором производится информационный поиск, технические средства TS реализации ИПС, а также взаимодействующих с ней людей N. Структура функционирования ИПС в таком понимании приведена на рис. 2.4.

Структура функционирования ИПС

Рис. 2.4. Структура функционирования ИПС:

Д — документы; 3 — запросы

В соответствии с рассмотренным выделением в ИПС абстрактного и конкретного уровней и с учетом особенностей хранения документальной информации (библиотеки, архивы и т.п. хранилища) процедуру информационного поиска документальной информации было предложено разделить на два контура[5]:

  • 1) семантическое осмысление запроса и выдача адресов (шифров, кодов), соответствующих запросу документов (на рис. 2.4 этот контур показан сплошными линиями);
  • 2) отыскание самих документов — вручную или с помощью специализированных технических средств, если ими оборудовано хранилище (на рис. 2.4 — штриховые линии).

Второй контур связан с разработкой специализированных технических средств хранения больших массивов документов и работой по переоборудованию хранилищ, а собственно проблемы информационного поиска решаются в первом контуре.

С учетом вышерассмотренного первый контур ИПС представляет собой ее логико-семантический аппарат и состоит из трех основных блоков (рис. 2.5):

  • • информационно-поискового языка;
  • • системы перевода (индексирования) на этот язык;
  • • логики, обеспечивающей поиск, который, в свою очередь, может быть детализирован и реализован разными способами.

В некоторых системах контуры могут быть совмещены. Напротив, иногда возникает необходимость выделять не два, а большее число контуров, что помогает организовать последовательно углубленный анализ текстов документов. Такие варианты реализуются, например, в документальнофактографических системах нормативно-правовых и нормативно-методических документов.

В символической форме, принятой выше, абстрактная ИПС (первый контур) представляет собой совокупность ИПЯ (RL), правил (системы) индексирования (IND) и логики (LOG), включающей наряду с критериями смыслового соответствия базисные отношения:

В теории и практике различают ИПС разных видов.

Документальные ИПС (ДИПС) в ответ на вводимые в них информационные запросы выдают оригиналы, копии или адреса хранения документов, содержащих требуемую информацию. Фактографические ИПС (ФИПС) предназначены для выдачи непосредственно требуемой информации (например, температуры кипения какой-либо жидкости, статистических показателей, содержащихся в соответствующих отчетных документах и т.п.). При этом существуют фактографические системы двух видов:

  • 1) системы, в которых сразу формируются массивы фактографической информации, параллельно с документальными;
  • 2) системы, в которых массивы фактографической информации формируются на основе массивов документальной информации.
Структура логико-семантического аппарата ИПС

Рис. 2.5. Структура логико-семантического аппарата ИПС

Документально-фактографическая информационно-поисковая система (ДФИПС) представляет собой ИПС, предназначенную для выдачи непосредственно требуемой информации (например, температуры кипения конкретной жидкости, статистических показателей и иных конкретных сведений, содержащихся в соответствующих отчетных документах, публикациях и т.п. документальных информационных массивах, и др.).

Существуют ДФИПС двух видов:

  • • документальные и сопряженные с ними массивы фактографической информации, которые формируются параллельно;
  • • информационно-логические системы, в которых фактографическая информация извлекается из документальной в процессе поиска.

Информационные системы второго вида могут, в свою очередь, формироваться как документально-фактографические (ДФИПС и АДФИПС), содержащие массивы двух видов:

  • • документальные и сопряженные с ними массивы фактографической информации;
  • • информационно-логические ИПС.

В отличие от документальных, фактографических и документально- фактографических ИПС первого вида, которые могут по запросам выдавать только информацию, введенную в них ранее, информационно-логические системы представляют собой информационные системы более высокого класса: они должны выдавать не только ранее введенную в них информацию, но и производить, если необходимо, логическую переработку этой информации с целью получения новой информации, которая в явном виде не вводилась в И С.

Первоначально разрабатывались документально-фактографические системы, в которых массивы фактографической информации формировались параллельно с массивами документальной информации. Наиболее известными примерами таких систем являются ДФИПС «Фтор» и «Спектр» [ 19, 201.

АДФИПС «Фтор» была разработана в ВИНИТИ в 1963 г. и предназначена для оперативного оповещения химиков о новых публикациях по фтороорганическим соединениям (документальная ИПС), а также для быстрого поиска сведений о химических соединениях и реакциях (фактографический режим работы ИПС) с указанием библиографических данных публикации-источника. В АДФИПС «Фтор» предусмотрена возможность работы в следующих режимах обслуживания: ИРИ, ретроспективный поиск; издание нермутационных библиографических указателей по тематике ИПС; изготовление копий публикаций-источников по заказам подписчиков.

АДФИПС «Спектр» разработана в 1970 г. группой сотрудников Новосибирского отделения органической химии и Вычислительного центра Сибирского отделения Академии наук СССР. Первоначально эта АДФИПС предназначалась для идентификации органических соединений по их инфракрасным спектрам. Для этого разработан специальный вариант кодирования инфракрасного спектра, поскольку АДФИПС предназначалась не только для опознания веществ по их инфракрасным спектрам, но и для выявления различных корреляционных связей. В АДФИПС предусмотрен режим стандартных запросов.

В последующем стали понимать документально-фактографический поиск как процесс автоматизации извлечения и логического преобразования фактографических данных с целью получения новой информации. Такие И С являются одним из направлений развития информационнологических систем. При их разработке необходимо проводить анализ системы понятий и методов рассуждений, принятых в соответствующей отрасли знаний, разрабатывать более сложные ИПЯ с правилами логического вывода. И С такого рода базируются на применении методов дискретной математики и искусственного интеллекта.

Понятие об информационно-поисковом языке. Применение естественного языка для отображения ПОД и ПОЗ связано со значительными трудностями, обусловленными наличием в языке синонимов, омонимов и т.п. неоднозначностей использования терминов естественного языка. Поэтому на определенном этапе развития теории и практики создания ИПС вместо естественного языка стали применять ИПЯ.

Существуют различные названия и определения специализированного языка, с помощью которого отражают основное содержание документов, вводимых в ИПС. Информационно-поисковый язык (retrieval language) - это «специализированный искусственный язык, предназначенный для выражения основного содержания документов или информационных запросов с целью отыскания документов в некотором их множестве» [20, с. 259].

Информационно-поисковый язык используется для отображения содержания документов информационно-поисковой системы в ПОД, и запроса — в ПОЗ, или поисковом предписании. Такой язык называли сначала информационным языком (ИЯ), предъявляя к нему требование однозначной записи содержания документа; языком индексирования (index language), определяемым как совокупность или система символов или индексных терминов и правил их использования для выражения предметного содержания документов; документальным языком (language documentaire) и т.п. (подробнее с обзором этих терминов можно ознакомиться в работе [20]). В окончательном варианте понятийного аппарата теории информационного поиска утвердился термин «информационно- поисковый язык».

Обобщая различные представления об информационно-поисковом языке, можно дать следующее определение: информационно-поисковый язык является формализованной семантической системой, обеспечивающей передачу (запись) содержания документа в объеме, необходимом для целей поиска. Документ, записанный на этом языке, может быть и не понят человеком, даже если в записи используются слова естественного языка, поскольку в И11Я употребление слов, выражений, отношений между ними стандартизировано определенным образом.

Задачей ИПЯ является перевод содержания документа в поисковое предписание или поисковый образ документа (при вводе документа в ИПС) и перевод содержания запроса пользователя в поисковый образ запроса (поисковое предписание).

Первые исследователи в качестве составляющих ИПЯ выделяли: алфавит (набор буквенных и цифровых символов); слова, формируемые из алфавита с помощью морфологических правил — морфологии; словарь перевода (в котором каждому слову или осмысленной конструкции естественного языка сопоставлено слово или словосочетание ИПЯ); правила, отражающие взаимоотношения между словами документа, которые в конкретных ИПЯ реализуются, например, с помощью текстуальных или контекстуальных отношений или с помощью специальных правил грамматики — синтаксиса.

Словарь может состоять из ключевых слов (словосочетаний) или дескрипторов. Вначале некоторые авторы (например, Ч. Мидоу [18]) отождествляли эти понятия и понимали под дескриптором все слова, выбранные для включения в словарь. Однако в дальнейшем термину «дескриптор» стали придавать более сложный смысл: в отличие от ключевых слов, выбираемых предварительно из документов массива, для поиска в котором разрабатывается ИПЯ, под дескриптором понимается некоторый (выбранный разработчиком ИПЯ) обобщающий термин для отображения группы синонимов или слов, которые для целей поиска в конкретной ИПС можно считать синонимами. Такие слова объединяют в класс условной эквивалентности, обобщаемый соответствующим дескриптором, и если в тексте документа или запроса встречается слово из данного класса, то его заменяют в ПОД или ПОЗ дескриптором.

Таким образом, дескриптор — специальное понятие, введенное и используемое в теории информационного поиска [ 19, 20].

В современных информационно-поисковых языках под дескриптором понимают имя класса условной эквивалентности [20|. Класс условной эквивалентности формируется из ключевых слов, связанных парадигматическими отношениями. Парадигматические (базисные) отношения — один из видов семантических отношений, предложенных в теории информационного поиска и применяемых при разработке информационно-поисковых языков. Роль парадигматических отношений сводится к следующему. Принципиальной особенностью естественного языка является тот факт, что в нем одни и те же события могут быть описаны в разных терминах, тогда как в поисковом образе документа — ПОД, и поисковом образе запроса — ПОЗ, могут быть использованы разные слова с сохранением смысла документа и запроса. Кроме того, на практике может оказаться необходимым отыскивать документы, в которых речь идет о более частных понятиях, чем в ПОЗ. Не потерять такие документы может помочь введение парадигматических (базисных) взаимоотношений между дескрипторами ИПЯ.

В широком смысле в состав парадигматических отношений включают отношения синонимии (тождество означаемых при различии означающих), омонимии (тождество означающих при различии означаемых), отношения, основанные на одинаковости основы при различных окончаниях (парадигмы склонения и спряжения).

Разные специалисты предлагают различные способы определения парадигматических связей: по сходству предметов, по принадлежности к одному классу, ассоциативные отношения (ассоциации по смежности в пространстве и во времени, по сходству, по контрасту, отношения соподчинения, «вид — род», «причина — следствие», «часть — целое» и т.п.). При этом допускается произвольное установление отношений в конкретном ИПЯ с ориентацией на повышение эффективности информационного поиска. Фиксированные базисные отношения могут быть заданы различными способами: с помощью структуры слов (как в универсальной десятичной классификации), с помощью системы ссылок, с помощью деревьев дескрипторов и т.п.

В различных языках компоненты ИПЯ используются по-разному. Словарь может иметь достаточно сложную структуру, т.е. представлять собой тезаурус, который может включать в себя и алфавит, и слова, и словосочетания, и более сложные конструкции. Термин «тезаурус» (от греч. 0г|5аоро^ — «сокровищница, богатство, клад, запас») в общем случае характеризует «совокупность научных знаний о явлениях и законах внешнего мира и духовной деятельности людей, накопленную всем человеческим обществом» [20, с. 85]. Этот термин был введен в современную литературу по языкознанию и информатике в 1956 г. Кембриджской группой по изучению языков. В то же время термин существовал раньше: в эпоху Возрождения тезаурусами называли энциклопедии. С обзором определений тезауруса и первых тезаурусов можно ознакомиться в работе [20].

В математической лингвистике и семиотике термин «тезаурус» используется в более узком смысле, для характеристики конкретного языка, его многоуровневой структуры. Для этих целей удобно пользоваться одним из принятых в лингвистике определений тезауруса как «множества смысловыражающих элементов языка с заданными смысловыми отношениями»[6].

Уровни тезауруса носят иные названия: ключевые слова, дескрипторы, абзацы и иные лингвистические и логические элементы. При этом между уровнями тезауруса могут существовать различные взаимоотношения — от древовидных иерархических до причинно-следственных. Таким образом, тезаурус позволяет представить структуру языка в виде уровней (страт) множеств слов, предложений, абзацев и т.п., смысловыражающие элементы каждого из которых формируются из смысловыражающих элементов предшествующих структурных уровней. Особую роль в формировании тезауруса играют базисные (парадигматические) отношения.

Правила формирования смысловыражающих элементов второго, третьего и последующих уровней в тезаурус не входят. Они образуют грамматику информационно-поискового языка (Gl, G2 и т.д.). В тезаурусе же определяются только вид и наименование уровня, характер и вид смысловыражающих элементов.

Иногда вместо понятия «смысловыражающие элементы» используется термин «синтаксические единицы тезауруса». Однако этот термин менее удачен, так как при формировании элементов нового множества смысловыражающих элементов каждого последующего уровня (при образовании слов из букв, фраз и предложений из слов и т.д.) у элементов вновь образованного множества появляется новый смысл.

Понятие тезауруса в первую очередь использовали при разработке информационно-поисковых языков, но в последующем его стали применять и при создании других искусственных языков — языков моделирования, автоматизации проектирования.

Тезаурус позволяет охарактеризовать язык с точки зрения уровней обобщения, ввести правила их использования при индексировании информации. В теории научно-технической информации исследуются различные свойства тезауруса [ 19, 20].

Можно говорить о глубине тезауруса того или иного языка, характеризуемой числом уровней, о видах уровней обобщения и, пользуясь этими понятиями, сравнивать языки, выбирать более подходящий для рассматриваемой задачи или, охарактеризовав структуру языка, организовать процесс его разработки.

В практике создания информационно-поисковых систем наиболее известны словарь-тезаурус «Тезаурус ASTIA»[7], два вида тезаурусов в системе SMART[8] (тезаурус с иерархической структурой понятий и словарь синонимов).

Простейшими тезаурусами являются словари дескрипторов при толковании дескриптора как имени класса условной эквивалентности, формируемого на основе парадигматических отношений.

Тезаурусы разрабатываются и в отечественных отраслевых системах научно-технической информации (например, в АСНТИ-геология[9]). Термин «тезаурус» иногда используется в более широком смысле. Например, Ю. И. Шемакин тезаурусом называет сложную систему организации в автоматизированных системах управления и обработки информации разных ее видов (научно-технической, управленческой, представляемой в документальной и фактографической форме)[10].

Морфологию и синтаксис удобно объединять единым термином - «грамматика». Тогда говорят, что ИМЯ состоит из тезауруса и грамматики, а затем рассматривают смысловыражающие элементы (синтаксические единицы) тезауруса и правила грамматики.

Под грамматикой (которую иногда называют синтактикой, синтаксисом, что сужает понятие грамматики, исключая из него морфологию) понимаются правила, с помощью которых формируются смысловыражающие элементы языка. Пользуясь этими правилами, можно «порождать» (формировать) грамматически (синтаксически) правильные конструкции или распознавать их грамматическую правильность. Простейшими правилами грамматики являются синтагматические (текстуальные) отношения.

При создании и использовании искусственных языков для информационно-логических систем применяют понятия математической лингвистики, в частности понятия порождающей и распознающей грамматики. Основу таких работ составляют идеи, которые можно пояснить с помощью классов грамматик, впервые предложенных Н. Хомским[11] [12].

В зависимости от используемых компонентов ИПЯ бывают разных видов. Виды и классификации ИПЯ рассматриваются, например, в [20].

Системы индексирования^. Процедуру перевода с естественного языка на ИПЯ называют индексированием. Результатом такого перевода является ПОД (при вводе документов в И ПС) или ПОЗ (при индексировании запроса пользователя).

Проблема индексирования связана с семантическим анализом текстов документов. Дело в том, что ндексирование документов, вводимых в поисковые массивы, и запросов пользователя разнесены во времени. Для алгоритмизации и автоматизации индексирования необходимо решить проблему выбора для включения в ПОД или ПОЗ наиболее значимых ключевых слов, дескрипторов, фраз (в зависимости от лексических единиц ИПЯ).

Важность можно определить несколькими признаками: 1) статистически, т.е. на основе частоты использования термина в документе; 2) на основе высказываний автора (его мнения, отраженного в заглавии документа или подзаголовках, выделяемых автором в документе); 3) с помощью грамматики, позволяющей отразить взаимосвязи между лексическими единицами, содержащимися в контексте; 4) по критериям важности, сформулированным пользователем, для чего при индексировании документов могут быть указаны весовые коэффициенты дескрипторов.

Система индексирования конкретной И ПС определяется возможностями ИПЯ, имеющимися в нем лексическими и синтаксическими средствами.

Существуют различные типы систем индексирования.

  • 1. Свободное индексирование. При этом способе из индексируемого документа выписываются в ПОД слова или словосочетания, которые отражают содержание индексируемого документа. Кроме того, элементами ПОД могут быть слова, отсутствующие в этих документах, но более точно отражающие смысл их текстов с точки зрения целей создания ИПС. Выписанные элементы упорядочиваются в алфавитном порядке. Такой процесс индексирования является принципиально неалгоритмическим, т.е. неавтоматизируемым.
  • 2. Полусвободное индексирование. Из документа выписывают слова и словосочетания вначале так же, как и при свободном индексировании. Однако выписанные элементы сравнивают затем с фиксированным словарем, не найденные в нем — устраняют, а оставшиеся, упорядочиваемые в алфавитном порядке, представляют собой ПОД (или ПОЗ).
  • 3. Статистический подход. Выбор слов (выражений) исходного текста, подлежащих включению в ПОД, производится на основе статистического анализа текста, при котором его слова рассматриваются как знаки, не имеющие семантических значений. При этом предлагались различные статистические критерии, основанные на сопоставлении относительной частоты употребления слова в документе и относительной частоты употребления слова в представительном массиве документов (т.е. в репрезентативной статистической выборке).

Статистический способ индексирования может быть алгоритмизирован и автоматизирован, и в настоящее время имеются средства автоматизированного статистического анализа текстов. Однако обычно этот способ используется как вспомогательный в сочетании с семантическим анализом текстов документов.

4. Системы индексирования, контролируемые заданным словарем (тезаурусом). В некоторых системах словарь используется как помощник специалисту, занимающемуся индексированием текста. К таким системам относится, например, универсальная десятичная классификация. В других системах такой словарь является элементом алгоритма индексирования: слово, одновременно встретившееся в тексте и в словаре, записывается в ПОД. В дескрипторных ИПЯ в ПОД (ПОЗ) записывается не само слово текста, а соответствующий ему дескриптор.

Перспективным представляется индексирование документов с использованием специально разработанных иерархических классификаций, отражающих цели поиска и использования документов. Такие классификаторы могут использоваться в качестве ИПЯ в информационных системах нормативно-методического обеспечения управления: иерархический классификатор, объединяющий нормативно-методические документы, разрабатывается на основе структуры целей (основных направлений) и функций деятельности предприятия. Иерархический классификатор ИПЯ может быть основой системы избирательного распределения информации: разрабатывается классификатор потребностей категории работников, пользующихся системой ИРИ.

Логика ИПС. Критерии смыслового соответствия. Как показано на рис. 2.5, под логикой ИПС понимаются критерии выдачи или критерии смыслового соответствия (обязательный элемент), базисные (парадигматические) и текстуальные (синтагматические) отношения между словами ИПЯ (базисные и (или) текстуальные отношения могут и отсутствовать).

Критерий смыслового соответствия (КСС) или критерий выдачи позволяет решать вопрос о выдаче или не выдаче того или иного документа, т.е. являются основой алгоритма поиска. Существуют следующие виды КСС [20]:

  • • «на полное вхождение» или «на вхождение». Условием выдачи документов является полное вхождение ПОЗ в ПОД. Документ выдается, если множество дескрипторов, образующее ПОЗ (Мп03), полностью входит в множество дескрипторов, содержащихся в ИОД (МПОд), или совпадает с Мцод, т.е. Мп03 с= Мпод;
  • • «на частичное вхождение» ПОЗ в ПОД (пересечение ПОД и ПОЗ). Документ выдается, если ПОД и ПОЗ совпадают частично, т.е. если часть дескрипторов, содержащихся в Мпод, совпадает с дескрипторами, входящими в МПОз — МПоз п МПОд;
  • • КСС с учетом базисных отношений. Документ выдается в том случае, если для каждого дескриптора запроса в ПОД встретился либо сам дескриптор, либо дескриптор, связанный с исходным базисными отношениями;
  • • КСС с учетом текстуальных и базисных отношений. Различие с предыдущим заключается в том, что сравнение дескрипторов ПОЗ и ПОД должно осуществляться с точностью до совпадения текстуальных отношений, в которые их прообразы вступают соответственно в запросе и документе;
  • • КСС с учетом весовых коэффициентов информативных слов или дескрипторов. Каждому информативному слову в запросе приписывается весовой коэффициент (И^). Весовые коэффициенты в ПОЗ определяются пользователем и нормируются. Сумма всех весовых коэффициентов в запросе должна быть константой (?W} = const). Выдача эшелонируется в зависимости от суммы весовых коэффициентов слов запроса, совпавших со словами, употребляемыми в документе. Количество эшелонов выдачи, а также соответствующие каждому из них суммы весовых коэффициентов (порог) определяются разработчиком системы в процессе ее отладки;
  • • КСС с учетом синтаксических отношений. Вводятся правила грамматики и сопоставляются синтагмы, формируемые из дескрипторов (или ключевых слов) с помощью введенных правил.

Разработка, отладка и оценки ИПС. Разработка документальных информационно-поисковых систем обычно проводится в виде следующих этапов:

  • 1) анализ совокупности документов, представляющих соответствующую научно-техническую область, для которой создается ИПС;
  • 2) выбор ключевых слов (КС), характеризующих содержание каждого документа. КС выбирают из заголовков (или из аннотаций) документов, включаемых в информационный массив (информационную базу) ИПС. Ключевые слова — существительные или отглагольные существительные, взятые в единственном числе и именительном падеже, прилагательные, глаголы в неопределенной форме;
  • 3) формирование из ключевых слов словаря (первой стадии разработки информационно-поискового языка); ИПЯ является основой для формирования ПОД, а в последующем — ПОЗ;
  • 4) выбор системы индексирования документов. Впоследствии могут быть выбраны системы индексирования по значимости или с использованием статистического словаря;
  • 5) индексирование документов, т.е. формирование ПОД каждого документа с использованием словаря. Первоначально ключевые слова в ИОД располагаются по алфавиту, в дальнейшем в процессе отладки системы может быть выбран иной способ индексирования. Возможно свободное индексирование, без словаря (система унитерм), тогда будет отсутствовать п. 2. Свободное индексирование применяется в поисковых системах Интернет;
  • 6) поиск с использованием выбранного КСС;
  • 7) проверка релевантности выдачи и отладка ИПС. Проводится отладка ИПС, в процессе которой оценивается релевантность выдачи и исследуется несколько способов ее повышения:
    • • изменение алгоритма поиска и (или) КСС;
    • • изменение способа индексирования (статистический, с учетом значимости КС для отображения смысла документа или запроса, т.е. с учетом весовых коэффициентов ключевых слов в ПОД и ПОЗ;
    • • развитие ИПЯ — внесение изменений в словарь путем введения классов условной эквивалентности, дескрипторов или иной способ изменения словаря; введение грамматики.

Изложенная методика разработки и отладки ИПС представляется в виде структурной схемы (рис. 2.6).

Схема отладки ИПС

Рис. 2.6. Схема отладки ИПС:

Д — документы; 3 — запросы; Р — проверка релевантности

С использованием терминологии рассмотренных подходов, можно считать, что разработка ДИПС начинается с анализа «пространства состояния», т.е. следует квалифицировать подход как терминальный, лингвистический, тезаурусный, метод «языка» системы, в упрощенном названии — как подход «снизу».

По мере развития ДИПС при разработке систем, реализующих режимы избирательного распределения информации и дифференцированного обслуживания руководителей, применяют системно-целевой подход, т.е. начинают разработку с исследования потребностей научных подразделений и руководителей.

С помощью рассмотренной методики студенты выполняют лабораторную работу с использованием языка логического программирования Турбо-Пролог.

Критерии оценки качества поиска и информационно-поисковых систем. В теории информационного поиска предлагаются и используются различные критерии оценки качества информационно-поисковой системы. Оценки поисковых систем делят на два класса, которые называются внешними (или функциональными) и внутренними оценками. Они основаны на сравнении результатов работы системы с результатами идеального содержательного поиска, осуществляемого экспертом. В теории информационного поиска для этого введены понятия релевантности и пертинентности.

Первоначально в классической теории информационного поиска под релевантностью понимали соответствие выдачи запросу, т.е. оценку качества алгоритма поиска. Под пертинентностыо — соответствие выдачи потребностям лица (или лиц), для которого (которых) осуществляется поиск информации, т.е. пертинентность — характеристика смысловыражающих возможностей ИПЯ, точность отображения с его помощью информационных потребностей.

В настоящее время иногда[13] термин «релевантность» используют в более широком смысле, различая релевантность первого рода (формальную релевантность), которая соответствует термину, первоначально введенному в теории информационного поиска, и релевантность второго рода, соответствующую понятию пертинентности.

Формальные оценки релевантности можно получить только для релевантности первого рода, т.е. для релевантности в исходном ее понимании в теории информационного поиска. Для оценки релевантности используют такие критерии, как полнота, точность поиска, потери, шум, которые могут быть представлены в виде различных соотношений.

В работе 1201 предлагается наглядная матрица для определения полноты и потерь, точности и шума (табл. 2.1).

Таблица 2.1

Матрица для определения критериев релевантности

Релевантны

Нерелевантны

-4.

л2

Выдано

5,

а

ь

а + b

Не выдано

В2

с

d

с + d

а + с

Ъ + cl

а + b + с + d

Полноту поиска измеряют отношением числа выданных релевантных документов (а) к общему числу релевантных документов массива + с):

Точность поиска Т — отношение числа выданных релевантных документов (а) к числу общему выданных документов + Ь)

Соответственно, потери L и шум S можно представить следующим образом:

Предлагается, проведя серию экспериментов п по определению полноты и точности поиска, определить среднюю полноту и среднюю точность[14]:

Используются и иные способы усреднения и оценки релевантности 119, 20|.

Таким образом, релевантность (формальная) характеризует свойства средств логико-семантического аппарата информационно-поисковой системы и зависит от возможности отображения ПОД и ПОЗ с помощью информационно-поискового языка, принятых в ИПС алгоритмов поиска и системы индексирования.

В качестве критериев оценки качества информационного поиска вводят также понятие коэффициента корреляции поиска[15]:

К числу показателей функциональной эффективности ИПС относят оперативность поиска; специфичность поиска отношение числа невы- данных нерелевантных документов (d) к общему числу нерелевантных документов (d + b), где b число выданных нерелевантных документов:

На практике при оценке ИПС с большими массивами информации точное измерение числа релевантных и нерелевантных документов в общем массиве или в массивах выданных документов затруднено. Поэтому могут использоваться энтропийные показатели.

Внутренние оценки основываются на таких структурных качествах системы, как сложность, степень близости к человеческой логике или естественному языку, степень алгоритмичности, на оценке компонентов ИПС, в частности ИПЯ, и т.п. Например, Ч. Мидоу [ 181 предлагает оценивать качество информационно-поискового языка, используя следующие критерии: семантическая сила (expressiveness), многозначность и компактность языка, стоимость выбора термина.

Семантическая сила это способность языка идентифицировать объект, различать мелкие особенности объектов, описывать объект с разной степенью детализации. Подразумеваются потенциальные возможности ИПЯ, а не умение им пользоваться. Самой большой семантической силой обладает естественный язык.

Многозначность говорит о том, что слово или синтаксическая единица тезауруса имеет более чем одно значение (омографы) или, напротив, что некоторое значение может иметь более одного символического представления в словарном составе ИПЯ (синонимия). Кроме того, одинаково звучащие слова могут иметь различные значения (полисемия или омонимия).

Синонимия и омография могут существовать и в синтаксических единицах, состоящих из нескольких слов.

Компактность характеризует физический размер или длину терминов словаря или поисковых образов, составленных из числа терминов, необходимых для отображения смысла документов и запросов.

Стоимость характеризует цену процесса принятия решения по выбору терминов (ключевых слов, дескрипторов или иных синтаксических единиц) для отображения смысла документа или запроса.

В общую стоимость входят: стоимость обучения пользованию языка; стоимость составления и совершенствования словаря; затраты, связанные с устранением ошибок, допущенных при выборе терминов; затраты времени на индексирование документов и составление ПОЗ.

Предлагаемые Ч. Мидоу оценки не являются независимыми и взаимоисключающими. ИПЯ может быть семантически сильным, но многозначным.

Постепенно ИПЯ развиваются: вначале на основе формирования дескрипторного словаря, затем — тезауруса, а при необходимости — и разработки грамматики.

Существующие ДИПС (в том числе поисковых систем Интернет) редко развиты до уровня наличия в них многоуровневого тезауруса и грамматики. В них обычно используются простейшие правила грамматики - конъюнкция и дизъюнкция (названные упрощенно — «AND», «OR» и т.п.), а термин «тезаурус» используется в упрощенном варианте, в лучшем случае — это двухуровневый словарь.

  • [1] Техническое задание на совершенствование Единой системы научно-техническойинформации в стране. М.: ГКНТ СМ СССР, 1972.
  • [2] Единый порядок и технические условия разработки и внедрения автоматизированныхподсистем обработки, поиска, храпения, выдачи и передачи информации. М.: ГКНТ при СМСССР, 1972.
  • [3] Шрайберг Я. Л., Воройский В. С. Автоматизированные библиотечно-информационныесистемы России: состояние, выбор, внедрение, развитие. М.: Либерия, 1996.
  • [4] Черный А. И. Введение в теорию информационного поиска. М.: Наука, 1975. С. 18.
  • [5] Черный А. И. Введение в теорию информационного поиска. М.: Наука, 1975.
  • [6] Шрейдер Ю. Л. Информация в структурах с отношениями // Исследования по математической лингвистике, математической логике и информационным языкам : сб. статей. М. :Наука, 1972. С. 147-159.
  • [7] Vikety В. С. Thesaurus of ASTIA Descriptors, 2nd Ed //Armed Forces Technical InformationAgency. Arlington, Verginia: Dec. 1962.
  • [8] Сэлтон Г. Автоматическая обработка, хранение и поиск информации. М. : Советскоерадио, 1973.
  • [9] Автоматизированная система научно-технической информатики — разработка и эксплуатация / К. И. Володин [и др.]. М.: Финансы и статистика, 2004.
  • [10] Шемакин 10. И. Тезаурус в автоматизированных системах управлениях и обработкаинформации. М.: Воеииздат, 1974.
  • [11] Хомский И. Три модели для описания языка // Кибернетический сборник. Вып. 2. М.:ИЛ, 1961.
  • [12] При подготовке этого раздела использовалась классификация, предложенная в работе:Певзнер Б. Р. Информационно-поисковые системы и информационно-поисковые языки. М.:ИПКИР, 1974. С. 10-11.
  • [13] Максимович Г. Ю., Романенко А. Г., Самойлюк О. Ф. Информационные системы. М. :Издательство Росийской экономической академии, 1999.
  • [14] Черный А. И. Введение в теорию информационного поиска. М.: Наука, 1975.
  • [15] Максимович Г. 10., Романенко А. Г., Самойлюк О. Ф. Информационные системы. М. :Издательство Российской экономической академии, 1999.
 
Посмотреть оригинал
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы