Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ
Посмотреть оригинал

ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА И МАШИННЫЙ АНАЛИЗ ТЕКСТОВ

ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА

В результате освоения данной главы обучающийся будет: знать

  • • предмет, цели и задачи обработки естественного языка; уметь
  • • анализировать различные языковые явления;
  • • решать лингвистические задачи; владеть
  • • базовыми приемами моделирования текстов на естественном языке.

Естественные и искусственные языки. Проблема нерегулярности естественных языков

Естественными называются исторически сложившиеся языки, используемые людьми для общения. Естественные языки развиваются непрерывно и стихийно, т.е. без определенной цели и плана. Этим они отличаются от искусственных языков, которые создаются и развиваются целенаправленно и планомерно. Примерами естественных языков являются любые национальные языки: русский, английский, язык индейцев племени навахо и т.д. Примером искусственного языка является язык международного общения эсперанто, лексика (словарь) которого была создана на основе популярных интернациональных слов, а грамматика (набор правил для построения фраз) — на базе 16 простейших шаблонов, не содержащих исключений.

В принципе, все искусственные языки, не только эсперанто, отличаются простой и строгой структурой, чего нельзя сказать об естественных языках. Для сравнения: если искусственный язык эсперанто разрабатывался как ясный и доступный каждому код общения, то естественный язык навахо, наоборот, использовался во Второй мировой войне как самый сложный и изощренный шифр. В тот период Япония и США вели войну на Тихом океане, и, как свидетельствуют источники, японцы с легкостью разгадывали все передаваемые американцами военные шифрограммы. Но так продолжалось только до тех пор, пока американцы не стали использовать в своих шифрограммах язык навахо1. Язык навахо был предельно сложен для изучения и понимания и в то время не имел письменности, а значит, книг и учебников. Кроме самих индейцев навахо его знали всего 30 человек в мире. Японцы долго бились над расшифровкой сообщений на навахо, но так и не смогли раскрыть секрет этого языка.

Сложность строения естественных языков объясняется их эволюционной природой. Дело в том, что лексико-грамматический строй естественных языков формируется исторически, на протяжении длительного времени, под влиянием разных эпох, культур и народов, благодаря чему состоит из множества хронологических пластов. Эти пласты, наслаиваясь друга на друга, смешиваясь и взаимопроникая, образуют в конечном итоге такую сложную, неоднозначную и избыточную систему, как естественный язык.

Наглядной иллюстрацией сказанного может служить рис. 7.1, изображающий историю развития английского языка. В нем каждая линия символизирует определенное этнокультурное воздействие, оказанное на английский язык в определенный период времени.

Другой, уже словесной иллюстрацией может служить история изменения формы прошедшего времени в русском языке. К этой истории мы обратились, задавшись вопросом, почему в русском языке глагол в прошедшем времени изменяется по родам, а в настоящем и будущем — нет. Сравните: он (она, оно) идет, но он шел, она шла, оно шло.

Оказалось[1] [2], что первоначально в русском языке было четыре формы прошедшего времени, в том числе перфект (в английском эта форма существует до сих пор). Перфект обозначал результат прошедшего действия, сохранившийся к настоящему времени. Он употреблялся при необходимости указать на прошлое, связанное с интересами настоящего, что характерно для риторики древних текстов (летописей, грамот, челобитных и т.д.). Сложная семантика перфекта выразилась в его сложной форме, образованной из вспомогательного глагола быти в настоящем времени (есьм, есмо, сси и т.д.) и краткого действительного причастия прошедшего времени с суффиксом «л». Например, «я приказал» — «аз есьм повелел».

Хронология развития английского языка

Рис. 7.1. Хронология развития английского языка1

1 Сост. но: Crystal D. The Cambridge encyclopedia of the English language. Cambridge : Cambridge University Press, 2003.

Перфект рано утратил свой вспомогательный глагол, и эта утрата сняла его связь с настоящим временем. Оставшись без глагола, причастие превратилось в простую глагольную форму прошедшего времени, но сохранило морфологические признаки — изменение но родам.

Цель следующего примера — демонстрация регулярности лексико-грамматического строя искусственных языков (на примере языка эсперанто). Автором этого замечательного примера является Б. Норман1.

В искусственном языке эсперанто аффиксы характеризуются однозначностью и регулярностью использования. Даны следующие наборы слов на эсперанто:

  • 1) vortaro словарь, gaze taro пресса, аго собрание, arbaro — лес, homaro человечество;
  • 2) portilo носилки,gladilo утюг, skribilo ручка, орудие письма, tondilo ножницы;
  • 3) топего монета,fairero искра,pohero пылинка, ею частица;
  • 4) banejo купальня, lemejo школа, trezorejo сокровищница, herbejo луг, kuirejo кухня, dormejo спальня.

Определите, какое значение имеют в эсперанто существительные Но и ejo. Что значат в этом языке herbero и gladejo?

Решение. Проанализировав ряды 1 и 3, делаем вывод, что аффиксами для образования новых слов в эсперанто служат простые односоставные слова. Сопоставив слова ряда 2, замечаем, что все слова ряда обозначают инструменты и имеют аффикс -Но. Делаем вывод, что слово Но означает «инструмент». (Сравните с русскими словами: зубило, точило, дробило.) Сопоставив слова ряда 4, замечаем, что все слова ряда обозначают места для выполнения каких-то процедур, действий и т.д. (место для купания; место для обучения; место, где хранятся сокровища; место, где растет трава; место для приготовления пищи; место для сна). Делаем вывод, что слово ejo означает «место». Теперь, учитывая, что слово herbejo означает «луг», а слово его «частица», делаем вывод, что слово herbero означает «травинка». Аналогично, учитывая, что слово gladilo означает утюг, делаем вывод, что слово gladejo означает «гладильная».

Следующий пример мы обнаружили в сборнике лингвистических олимпиад[3] [4]. Его автором является крупнейший российский ученый-лингвист А. А. Зализняк.

Одно из слов — дверь, горсть, тень, лошадь, постель, кровать — изменило в ходе истории свой род (однако некоторые следы того, что оно было ранее другого рода, в русском языке сохранились). Найдите это слово. Обоснуйте свой ответ.

Решение. Поскольку все слова в исходном списке явно женского рода, нужно искать косвенные признаки, которые могут указывать на род существительного. Перебирая различные варианты, мы приходим к выводу, что таким признаком может служить образование уменьшительной формы. И действительно, все слова в списке, кроме слова «тень», образуют уменьшительную форму как существительные женского рода: дверь — дверка, горсть — горстка, лошадь — лошадка, постель — постелька, кровать — кроватка. И только слово тень образует уменьшительную форму как существительное мужского рода: тень — тенек (сравните: день — денек, князь — князек). Таким образом, правильный ответ — это слово «тень».

Этот пример можно назвать в некотором смысле антагонистом предыдущего. Он демонстрирует сложную эволюционную природу формирования лексико-грамматического строя естественных языков на основе так называемого диахронического подхода. Диа- хронический подход позволяет отследить развитие тех или иных языковых явлений сквозь время (греч. dia chronos) и тем самым помогает понять, как эволюционируют естественные языки.

  • [1] См.: Paul D. Л. The Navajo code talkers. Pittsburgh : Dorrance Publishing, 1973.
  • [2] См.: Историческая грамматика русского языка : пособие для студентов заочного отделения / под рсд. Л. Я. Костючук. Псков : Изд-во ПГПИ, 2003.
  • [3] Приводится по: Норман Б. Ю. Лингвистические задачи : учеб, пособие. М. :Флинта ; Наука, 2006.
  • [4] Приводится по: Задачи лингвистических олимпиад. 1965—1975 / ред.-сост.В. И. Беликов, Е. В. Муравенко, М. Е. Алексеев. М.: Изд-во МЦНМО, 2006.
 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы