ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА И МАШИННЫЙ АНАЛИЗ ТЕКСТОВ
ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА
В результате освоения данной главы обучающийся будет: знать
- • предмет, цели и задачи обработки естественного языка; уметь
- • анализировать различные языковые явления;
- • решать лингвистические задачи; владеть
- • базовыми приемами моделирования текстов на естественном языке.
Естественные и искусственные языки. Проблема нерегулярности естественных языков
Естественными называются исторически сложившиеся языки, используемые людьми для общения. Естественные языки развиваются непрерывно и стихийно, т.е. без определенной цели и плана. Этим они отличаются от искусственных языков, которые создаются и развиваются целенаправленно и планомерно. Примерами естественных языков являются любые национальные языки: русский, английский, язык индейцев племени навахо и т.д. Примером искусственного языка является язык международного общения эсперанто, лексика (словарь) которого была создана на основе популярных интернациональных слов, а грамматика (набор правил для построения фраз) — на базе 16 простейших шаблонов, не содержащих исключений.
В принципе, все искусственные языки, не только эсперанто, отличаются простой и строгой структурой, чего нельзя сказать об естественных языках. Для сравнения: если искусственный язык эсперанто разрабатывался как ясный и доступный каждому код общения, то естественный язык навахо, наоборот, использовался во Второй мировой войне как самый сложный и изощренный шифр. В тот период Япония и США вели войну на Тихом океане, и, как свидетельствуют источники, японцы с легкостью разгадывали все передаваемые американцами военные шифрограммы. Но так продолжалось только до тех пор, пока американцы не стали использовать в своих шифрограммах язык навахо1. Язык навахо был предельно сложен для изучения и понимания и в то время не имел письменности, а значит, книг и учебников. Кроме самих индейцев навахо его знали всего 30 человек в мире. Японцы долго бились над расшифровкой сообщений на навахо, но так и не смогли раскрыть секрет этого языка.
Сложность строения естественных языков объясняется их эволюционной природой. Дело в том, что лексико-грамматический строй естественных языков формируется исторически, на протяжении длительного времени, под влиянием разных эпох, культур и народов, благодаря чему состоит из множества хронологических пластов. Эти пласты, наслаиваясь друга на друга, смешиваясь и взаимопроникая, образуют в конечном итоге такую сложную, неоднозначную и избыточную систему, как естественный язык.
Наглядной иллюстрацией сказанного может служить рис. 7.1, изображающий историю развития английского языка. В нем каждая линия символизирует определенное этнокультурное воздействие, оказанное на английский язык в определенный период времени.
Другой, уже словесной иллюстрацией может служить история изменения формы прошедшего времени в русском языке. К этой истории мы обратились, задавшись вопросом, почему в русском языке глагол в прошедшем времени изменяется по родам, а в настоящем и будущем — нет. Сравните: он (она, оно) идет, но он шел, она шла, оно шло.
Оказалось[1] [2], что первоначально в русском языке было четыре формы прошедшего времени, в том числе перфект (в английском эта форма существует до сих пор). Перфект обозначал результат прошедшего действия, сохранившийся к настоящему времени. Он употреблялся при необходимости указать на прошлое, связанное с интересами настоящего, что характерно для риторики древних текстов (летописей, грамот, челобитных и т.д.). Сложная семантика перфекта выразилась в его сложной форме, образованной из вспомогательного глагола быти в настоящем времени (есьм, есмо, сси и т.д.) и краткого действительного причастия прошедшего времени с суффиксом «л». Например, «я приказал» — «аз есьм повелел».

Рис. 7.1. Хронология развития английского языка1
1 Сост. но: Crystal D. The Cambridge encyclopedia of the English language. Cambridge : Cambridge University Press, 2003.
Перфект рано утратил свой вспомогательный глагол, и эта утрата сняла его связь с настоящим временем. Оставшись без глагола, причастие превратилось в простую глагольную форму прошедшего времени, но сохранило морфологические признаки — изменение но родам.
Цель следующего примера — демонстрация регулярности лексико-грамматического строя искусственных языков (на примере языка эсперанто). Автором этого замечательного примера является Б. Норман1.
В искусственном языке эсперанто аффиксы характеризуются однозначностью и регулярностью использования. Даны следующие наборы слов на эсперанто:
- 1) vortaro — словарь, gaze taro — пресса, аго — собрание, arbaro — лес, homaro — человечество;
- 2) portilo — носилки,gladilo — утюг, skribilo — ручка, орудие письма, tondilo — ножницы;
- 3) топего — монета,fairero — искра,pohero — пылинка, ею — частица;
- 4) banejo — купальня, lemejo — школа, trezorejo — сокровищница, herbejo — луг, kuirejo — кухня, dormejo — спальня.
Определите, какое значение имеют в эсперанто существительные Но и ejo. Что значат в этом языке herbero и gladejo?
Решение. Проанализировав ряды 1 и 3, делаем вывод, что аффиксами для образования новых слов в эсперанто служат простые односоставные слова. Сопоставив слова ряда 2, замечаем, что все слова ряда обозначают инструменты и имеют аффикс -Но. Делаем вывод, что слово Но означает «инструмент». (Сравните с русскими словами: зубило, точило, дробило.) Сопоставив слова ряда 4, замечаем, что все слова ряда обозначают места для выполнения каких-то процедур, действий и т.д. (место для купания; место для обучения; место, где хранятся сокровища; место, где растет трава; место для приготовления пищи; место для сна). Делаем вывод, что слово ejo означает «место». Теперь, учитывая, что слово herbejo означает «луг», а слово его — «частица», делаем вывод, что слово herbero означает «травинка». Аналогично, учитывая, что слово gladilo означает утюг, делаем вывод, что слово gladejo означает «гладильная».
Следующий пример мы обнаружили в сборнике лингвистических олимпиад[3] [4]. Его автором является крупнейший российский ученый-лингвист А. А. Зализняк.
Одно из слов — дверь, горсть, тень, лошадь, постель, кровать — изменило в ходе истории свой род (однако некоторые следы того, что оно было ранее другого рода, в русском языке сохранились). Найдите это слово. Обоснуйте свой ответ.
Решение. Поскольку все слова в исходном списке явно женского рода, нужно искать косвенные признаки, которые могут указывать на род существительного. Перебирая различные варианты, мы приходим к выводу, что таким признаком может служить образование уменьшительной формы. И действительно, все слова в списке, кроме слова «тень», образуют уменьшительную форму как существительные женского рода: дверь — дверка, горсть — горстка, лошадь — лошадка, постель — постелька, кровать — кроватка. И только слово тень образует уменьшительную форму как существительное мужского рода: тень — тенек (сравните: день — денек, князь — князек). Таким образом, правильный ответ — это слово «тень».
Этот пример можно назвать в некотором смысле антагонистом предыдущего. Он демонстрирует сложную эволюционную природу формирования лексико-грамматического строя естественных языков на основе так называемого диахронического подхода. Диа- хронический подход позволяет отследить развитие тех или иных языковых явлений сквозь время (греч. dia chronos) и тем самым помогает понять, как эволюционируют естественные языки.
- [1] См.: Paul D. Л. The Navajo code talkers. Pittsburgh : Dorrance Publishing, 1973.
- [2] См.: Историческая грамматика русского языка : пособие для студентов заочного отделения / под рсд. Л. Я. Костючук. Псков : Изд-во ПГПИ, 2003.
- [3] Приводится по: Норман Б. Ю. Лингвистические задачи : учеб, пособие. М. :Флинта ; Наука, 2006.
- [4] Приводится по: Задачи лингвистических олимпиад. 1965—1975 / ред.-сост.В. И. Беликов, Е. В. Муравенко, М. Е. Алексеев. М.: Изд-во МЦНМО, 2006.