Энтропийный анализ текстов

Понимание энтропии как меры неупорядоченности системы позволяет применять ее для описания свойств не только материальных объектов, но и сообщений.

Представим себе, что у нас есть отрывок текста, написанного буквами русского алфавита, причем слова отделяются только пробелами, знаков препинания нет. Вместо букв с тем же успехом можно было бы использовать числа от 1 до 34 (№ 34 означает пробел). Физической моделью такого текста служит ящик с количеством отделений, равным количеству букв в тексте, причем количество молекул в каждом отделении соответствует номеру буквы в алфавите. Можно определить понятие статистического веса и для такой системы и вычислить его с помощью приемов, подобных тем, что описаны в п. 4.4.3.

Формула Больцмана говорит, что энтропия этой системы максимальна, если вероятность обнаружить в заданном отделении N молекул (вероятность того, что заданная буква текста имеет номер Лг в алфавите) одна и та же для любого N (на заданном месте может с равной вероятностью стоять любая буква или пробел). Состоянием с наибольшей энтропией (примерно 3,5k на одну букву), как и положено, оказывается наиболее однородное состояние. Однако оно соответствует и наиболее бессмысленному тексту! Вот классический пример текста, в котором вероятность появления (другими словами, распространенность) любой буквы одна и та же[1]:

СУХЕРРОБЬДЩ ЯЫХВЩИЮЛЙЖТЛФВН ЗАГФОЕНВШТЦРИХГБКУЧТЖЮРЯП...

Понять, что приведенная фраза бессмысленна, может и человек, не знающий русского. Во-первых, в естественном языке слова не такие длинные, т. е. пробел должен встречаться гораздо чаще. Во-вторых, в каждом языке есть буквы, употребляемые чаще других (например, в русском это «о», в английском — «е»). В-третьих, вероятность того, что на данном месте стоит данная буква, во многом зависит от ее окружения: после пробела мы никогда не увидим твердого или мягкого знака, а после букв «тьс» наверняка идет «я». Таким образом, осмысленный, упорядоченный текст не может рассматриваться как однородная система. Именно благодаря свойству неоднородности осмысленного текста разгадывают зашифрованные послания герои рассказов А. К. Дойля «Пляшущие человечки» и Э. По «Золотой жук».

Расчет, учитывающий неоднородность текста на естественном языке, показывает, что его энтропия составляет примерно 0,7 k на букву, т. е. в пять раз меньше, чем у беспорядочного набора букв. Этот результат практически не зависит от того, какой именно язык мы вы- брази для анализа. Снова мы убеждаемся, что снижение энтропии эквивазентно повышению упорядоченности.

В 1994 г. группа ученых, возглавляемая известным специалистом по статистической физике Ю. Стэнли, рассчитала энтропию генетического текста в некодирующих участках ДНК (п. 4.3.3.4) и обнаружила, что она существенно ниже, чем для чисто случайной последовательности нуклеотидов[2]. Более того, она оказалась ниже, чем энтропия кодирующих последовательностей! Это заставило предположить, что и молчащие участки несут какой-то смысл. Прошедшие с тех пор 10 лет полностью подтвердили это предположение (п. 4.3.3.4).

  • [1] Седов Е. Одна формула и весь мир. Книга об энтропии. М: Знание, 1982.
  • [2] Mantegna R. N., Buldyrev S. V., Goldberger A. L., et al. Linguistic features of noncodingDNA sequences // Phys. Rev. Letters. 1994. V. 73. № 23. P. 3169-3172.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >