Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ
Посмотреть оригинал

Машинный анализ текстов. Проблема понимания естественных языков

Исторически термин «машинный анализ» в дисциплине обработки естественного языка понимается двояко: в слабой трактовке как простой акт переработки (интерпретации) входного текста на естественном языке в соответствии с ожиданиями пользователя, в сильной трактовке — как сложный когнитивный акт мышления и понимания (рис. 8.4).

Два понимания проблемы машинного анализа текстов

Рис. 8.4. Два понимания проблемы машинного анализа текстов

Сторонники сильного подхода связывают проблему машинного анализа текстов на естественном языке с изучением механизмов функционирования мышления и речи. Они стремятся создать такую модель понимания языка, которая позволяла бы преобразовывать смысл (мысль) в текст (сообщение) и наоборот — текст в смысл. Одним из апологетов сильного подхода является компания ABB YY со своей универсальной лингвистической технологией Compreno, которую она развивает уже свыше 15 лет[1].

Сторонники слабого подхода считают, что создание универсальной и всеобъемлющей модели понимания языка невозможно в принципе и что ни одна искусственная модель не способна перекрыть многообразие форм и вариантов выражения смысла на естественном языке. По их мнению, естественно-языковые тексты должны не пониматься, а интерпретироваться компьютером с установкой на то, что пользователь ожидает получить на выходе. Правила интерпретации могут быть самыми разными и зависят от специфики решаемой задачи. Апологетом слабого подхода является компания Google с технологией статистического машинного перевода Google TranslateК

Как следует из определения, сильный подход к машинному анализу текстов заключается в реализации технологии понимания естественного языка. Результатом ее работы является перевод естественного языка на универсальный язык понятий. Базисом для выполнения такого перевода служит модель описания естественного языка, которая в свою очередь опирается на его грамматику.

Как известно, грамматика и ее составные части — лексика, морфология и синтаксис — изучают законы построения правильных осмысленных высказываний на естественном языке. Образно выражаясь, грамматика формулирует правила облечения заданного смысла в текстовую оболочку. Пусть и с меньшим успехом, но эти же правила могут быть использованы и для решения обратной задачи — извлечения смысла из заданной текстовой оболочки (рис. 8.5).

Прямая и обратная задачи грамматики

Рис. 85. Прямая и обратная задачи грамматики

Например, одной из задач синтаксиса является синтаксический анализ, который позволяет вычленить в заданном высказывании сказуемое (действие) и подлежащее (действующее лицо), т.е. извлечь из высказывания его опорную семантическую структуру. Для выполнения такого анализа компьютер должен иметь доступ к машиночитаемым лингвистическим ресурсам (словарям, аннотированным корпусам текстов и т.д.). Причем чем глубже производимый анализ (чем сложнее используемая модель языка), тем мощнее должны быть лингвистические ресурсы. Их создание и разметка — это очень трудоемкий процесс, который, тем [2]

нс менее, является необходимым, хотя и недостаточным условием для реализации технологии понимания естественного языка.

По большому счету реализация полноценного понимания естественного языка эквивалентна построению искусственного интеллекта, способного обучаться и познавать окружающую среду. Потому и утверждается, что для создания технологии понимания языка одних лингвистических ресурсов недостаточно. Эти ресурсы и модель описания языка образуют опорный базис технологии, но к этому базису требуется надстройка, моделирующая знания об окружающем мире (рис. 8.6).

Модели описания языка и мира — базис и надстройка технологии понимания естественного языка

Рис. 8.6. Модели описания языка и мира — базис и надстройка технологии понимания естественного языка

Поясним сказанное на примере следующего хрестоматийного диалога между двумя студентами[3]. В этом диалоге студент X говорит студенту Y: «Пойдем вечером в кино». Студент Y отвечает: «Я должен готовиться к экзамену». Ясно, что компьютер, способный к пониманию языка, на основе анализа ответа студента У должен сделать вывод, что приглашение в кино отклонено (хотя прямо из ответа этого не следует). Следовательно, помимо грамматических правил в памяти компьютера должны храниться какие-то факты и знания об окружающем мире, в числе которых и представление о том, что подготовка к экзамену и поход в кино — несовместимые вещи.

Таким образом, создание технологии понимания естественного языка представляет собой сложнейший научный и технологический вызов, ответ на который следует искать на стыке двух наук: компьютерной лингвистики (в части моделирования естественного языка) и инженерии знаний (в части моделирования знаний).

Обе науки являются разделами искусственного интеллекта. Предметом компьютерной лингвистики является создание формальных моделей для описания строения естественных и некоторых искусственных языков. Предметом инженерии знаний является создание моделей, методов и инструментов извлечения, представления и использования знаний.

  • [1] См.: ABBYY Compreno// ABBYY. URL: http://www.abbyy.ru/isearch/comprcno
  • [2] См.: Hampshire S., Salvia С. Р. Traslation and the Internet: Evaluating theQuality of Free Online Machine Translators // Quaderns: revista de traduccio. 2010.№ 17.*
  • [3] 2 Приводится по: SearleJ. R. Indirect speech acts // Svntax and Semantics. 1975.№3.
 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Популярные страницы