Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Теория информационных процессов и систем

Логика ИПС. Критерии смыслового соответствия

Как показано на рис. 6.3, иод логикой ИПС понимаются критерии выдачи или критерии смыслового соответствия (обязательный элемент), базисные (парадигматические) и текстуальные (синтагматические) отношения между словами ИПЯ (базисные и (или) текстуальные отношения могут и отсутствовать).

Критерий смыслового соответствия (КСС), ши критерий выдачи, позволяет решать вопрос о выдаче или не выдаче того или иного документа, т.е. является основой алгоритма поиска.

Существуют следующие виды КСС [14, 24]:

• КСС "на полное вхождение", или "на вхождение".

Условием выдачи документов является полное вхождение ПОЗ в ПОД. Иными словами, документ выдается, если множество дескрипторов, образующее ПОЗ (Мпоз), полностью входит (рис. 6.8) в множество дескрипторов, содержащихся в ПОД (МПОЛ), или совпадает с Мпод, т.е. Мпоз Ì Мпод

Критерий

Рис. 6.8. Критерий "на полное вхождение"

• КСС "на частичное вхождение".

ПОЗ входит в ПОД частично (пересечение ПОД и ПОЗ). Документ выдается, если ПОД и ПОЗ совпадают частично, т.е. если часть дескрипторов, содержащихся в Мпод, совпадает с дескрипторами, входящими в Мпоз (рис. 6.9): Мпоз Ç Мпод.

Критерий

Рис. 6.9. Критерий "на частичное вхождение"

• КСС с учетом текстуальных и базисных отношений.

Различие с предыдущим заключается в том, что сравнение дескрипторов ПОЗ и ПОД должно осуществляться с точностью до совпадения текстуальных отношений, в которые их прообразы вступают соответственно в запросе и документе.

• КСС с учетом весовых коэффициентов информативных слов или дескрипторов.

Каждому информативному слову в запросе приписывается весовой коэффициент (WI). Весовые коэффициенты в ПОЗ определяются пользователем и нормируются. Сумма всех весовых коэффициентов в запросе должна быть константой (ΣWI= const). Выдача эшелонируется в зависимости от суммы весовых коэффициентов слов запроса, совпавших со словами, употребляемыми в документе. Количество эшелонов выдачи, а также соответствующие каждому из них суммы весовых коэффициентов (порог) определяются разработчиком системы в процессе ее отладки.

• КСС с учетом синтаксических отношений.

Вводятся правила грамматики и сопоставляются синтагмы, формируемые из дескрипторов (или ключевых слов) с помощью введенных правил.

Оценки качества информационного поиска и информационно-поисковых систем

В теории информационного поиска предлагаются и используются различные критерии оценки качества информационно-поисковой системы.

Разработка комплекса критериев оценки качества информационного поиска – достаточно сложная проблема: состав и количественные характеристики критериев зависят от конкретного назначения и принципов реализации ИПС.

Различают два типа оценок:

  • • оценки-описания, значения которых характеризуют непосредственно систему безотносительно к другим системам;
  • • оценки-шкалы, значения которых определяют сравнительные достоинства различных поисковых систем.

От "оценки-описания" требуется, чтобы ее значения позволяли достаточно полно судить о существенных свойствах оцениваемых объектов, например, предсказывать их поведение в тех или иных конкретных условиях. В этом случае "оценка-описание" называется эффективной.

От "оценки-шкалы" требуется, чтобы ее значения упорядочивали множество оцениваемых объектов, например различных ИПС, не вступая при этом в противоречие с существующими у нас содержательными представлениями о сравнительных достоинствах этих объектов. В этом случае "оценка-шкала" называется здравой.

Следует иметь в виду, что одна и та же формальная оценка может рассматриваться и как "оценка-шкала", и как "оценка-описание".

Содержательная оценка подразумевает оценку полезности информации для потребителя, для результатов его основной деятельности. При этом оценка эффективности получаемой информации подразумевает оценку ее полезности и затрат на ее получение. Кроме того, для строгой оценки необходимо выделить долю результата, определяемого именно полученной информацией, что сделать крайне затруднительно.

С учетом сказанного вместо оценки эффективности поиска ограничиваются оценкой функциональной эффективности.

Оценки поисковых систем делят на два класса, которые называются внешними (или функциональными) и внутренними оценками.

Внутренние оценки основываются на таких структурных качествах системы, как сложность, степень близости к человеческой логике или естественному языку, степень алгоритмичности, на оценке компонентов ИПС, и в частности информационно-поискового языка (ИПЯ) и т.п.

Например, Ч. Мидоу [13] предлагает оценивать качество информационно-поискового языка, используя следующие критерии: семантическая сила (expressiveness), многозначность и компактность языка, стоимость выбора термина.

Семантическая сила – это способность языка идентифицировать объект, различать мелкие особенности объектов, описывать объект с разной степенью детализации.

Подразумеваются потенциальные возможности ИПЯ, а не умение им пользоваться. Самой большой семантической силой обладает естественный язык.

Многозначность означает, что слово или синтаксическая единица тезауруса имеет более чем одно значение (омографы), или напротив, что некоторое значение может иметь более одного символического представления в словарном составе ИПЯ (синонимия). Кроме того, одинаково звучащие слова могут иметь различные значения (полисемия или омонимия).

Синонимия и омография могут существовать и в синтаксических единицах, состоящих из нескольких слов.

Компактность характеризует физический размер или длину терминов словаря или поисковых образов, составленных из числа терминов, необходимых для отображения смысла документов и запросов.

Стоимость характеризует цену процесса принятия решения по выбору терминов (ключевых слов, дескрипторов или иных синтаксических единиц) для отображения смысла документа или запроса.

В общую стоимость входят: стоимость обучения пользованию языка, стоимость составления и совершенствования словаря, затраты, связанные с устранением ошибок, допущенных при выборе терминов, затраты времени на индексирование документов и составление ПОЗ.

Предлагаемые Ч. Мидоу оценки не являются независимыми и взаимоисключающими.

ИПЯ может быть семантически сильным, но многозначным. Компактность слов в словарном составе языка не определяет стоимости, т.е. затрат времени и труда на выбор терминов.

ИПЯ характеризуют также словарным составом и наличием грамматики. При наличии тезауруса ИПЯ можно охарактеризовать его глубиной, т.е. количеством уровней, видов смысловыражающих элементов или синтаксических единиц тезауруса. Характеристики ИПЯ являются внутренними оценками информационно-поисковой системы, влияющими на оценку качества информационного поиска, по критерию пертинентности.

Внешние, или функциональные, оценки основаны па сравнении результатов работы системы с результатами идеального содержательного поиска, осуществляемого экспертом. В теории информационного поиска для этого введены понятия релевантности и пертинентности.

Под релевантностью понимается соответствие выдачи запросу, т.е. релевантность характеризует качество алгоритма поиска. Под пертинентностью – соответствие выдачи потребностям лица (или лиц), для которого (которых) осуществляется поиск информации, т.е. пертинентность характеризует смысловыражающие возможности ИПЯ, точность отображения с его помощью информационных потребностей.

В настоящее время иногда термин релевантность используют в более широком смысле и различают релевантность первого рода (формальную релевантность), которая соответствует термину, первоначально введенному в теории информационного поиска [14], и релевантность второго рода, соответствующую понятию пертинентности.

Для оценки релевантности используют такие критерии, как полнота, точность поиска, потери, шум, которые могут быть представлены в виде различных соотношений.

В качестве критериев оценки качества информационного поиска вводится понятие коэффициента корреляции поиска [1]:

где a, b, c, d – критерии релевантности (см. в табл. 6.5).

  • [1] Сэлтон Г. Автоматическая обработка, храпение и поиск информации / Г. Сэлтон. М.: Сов. радио, 1973.
 
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы