Меню
Главная
УСЛУГИ
Авторизация/Регистрация
Реклама на сайте
Закономерность применения методов обученияИнформация и информационные потоки, их применение в стратегическом...Организация внутренних информационных потоков
Перспективы развития информетрииПОНЯТИЕ КАК ФОРМА МЫСЛИПонятие и юридическое значение состояний
Закон ЦипфаЗаконЗакон исключенного третьего
 
Главная arrow Информатика arrow Теория информационных процессов и систем
< Предыдущая   СОДЕРЖАНИЕ   Следующая >

Закономерности информетрии и их применение для исследования информационных потоков

Понятие об информетрии

Термин "информетрия" [1] был введен в начале 80-х гг. XX в. по аналогии с наукометрией, библиометрией для краткой характеристики количественных методов исследования научно-технической информации. Наиболее полно этот термин был раскрыт В. И. Горьковой [6].

Закономерности информетрии определяют распределения информации в документальных информационных потоках (ДИП), количественные и качественные параметры организации частотных словарей, использования слов в текстах документов. ДИП формируют официальные, периодические и продолжающиеся издания и другие опубликованные и неопубликованные документы научно-технической информации. 1

Первые результаты исследований лингвистических закономерностей естественного языка были получены Дж. Эсту (J. В. Estoup, 1916 г.), А. Лоткой (A.J. Lotka, 1926 г.).

Характеристику качественных свойств частотных словарей определил в 1916 г. Дж. Эсту, который обнаружил, что частота использования слов в тексте обратно пропорциональна его номеру в частотном словаре.

Наиболее исследованы закономерности информетрии Г. Ципфа, Б. Мальденброта, С. Брэдфорда, Б. Викери.

Законы Ципфа

George К. Zipf (Дж. Ципф, или в некоторых современных переводах – Г. Зипф) в начале 30-х гг. XX в. на основе статистических исследований получил следующую закономерность [2].

Допустим, имеется текст длиной N слов и словарь объемом т слов с указанием частоты появления слова в тексте. Слова в словаре расположены в порядке убывания их по частоте и проранжированы от 1 до т. Ранг, равный 1, присваивается слову, частота появления которого наибольшая; ранг, равный т, – наименее употребимому слову. Тогда:

где рri относительная частота появления слова в тексте; fri – абсолютная частота появления слова ri ранга в тексте определенной длины; N – число слов в тексте; ri – ранг слова, где 1 ≤ i ≤ т.

Если умножить вероятность или относительную частоту обнаружения слова в тексте на ранг ri слова, то получим:

где k – константа; 1 ≤ ri ≤ т.

Если преобразовать формулу, то получим: , т.е.

функцию типа у = k/x, график которой – равносторонняя гипербола.

Таким образом, на основе анализа полученных зависимостей Ципф предложил эмпирическую формулу, устанавливающую связь между частотой появления слов в тексте и его рангом в словаре:

где k – эмпирически определяемая константа, изменяющаяся для разных текстов.

При этом 1 ≤ ri ≤ т; – частота наиболее употребимого слова; рт частота наименее употребимого слова; рri = ср(ri) – "гиперболическая лестница", поскольку ранговое распределение имеет ступенчатый характер (ряд слов появляется с одинаковой частотой), но при аппроксимации можно считать распределение Ципфа гиперболой (рис. 4.9).

Первый закон Ципфа

Рис. 4.9. Первый закон Ципфа

Значение константы в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текст мы ни взяли. Так, имеются исследования, показывающие, что, например, для английских текстов константа Ципфа равна приблизительно 0,1; а для русского языка – примерно 0,06–0,07.

Поэтому Ципф приводил также запись этого закона в виде

где k = 0,1 (для естественных языков).

Опираясь на экспериментальные данные, собранные в результате статистического исследования многих текстов на различных языках, Ципф обнаружил также, что распределение слов естественного языка подчиняется единому простому закону, который он назвал "принципом наименьшего усилия": выражая мысли с помощью языка, мы подвергаемся действию двух противоположных сил – силе унификации и силе диверсификации, проявляющихся, с одной стороны, в необходимости быть понятыми, а с другой – желанием выразить мысль покороче.

Ципф установил, что частота и количество слов, входящих в текст с этой частотой, связаны между собой. Если построить зависимость количества слов в данной частоте от частоты вхождения слова, то получится кривая, аналогичная рис. 4.8, которая будет сохранять свои параметры для всех без исключения созданных человеком текстов с некоторыми отклонениями для разных естественных языков (рис. 4.10).

Второй закон Ципфа

Рис. 4.10. Второй закон Ципфа

Эту закономерность называют иногда вторым законом Ципфа.

Исследования показали, что наиболее значимые слова лежат в средней части гиперболы (см. рис. 4.9). Слова, которые попадаются слишком часто, в основном оказываются предлогами, местоимениями, в английском – артиклями и т.п. Редко встречающиеся слова тоже в большинстве случаев не имеют решающего смыслового значения.

От того как будет выставлен диапазон значимых слов, зависят свойства информационно-поисковой системы.

Если применить более широкий диапазон, нужные термины потонут в море вспомогательных слов; если установить узкий диапазон – можно потерять смысловые термины. В каждой поисковой системе эта проблема решается по-своему, с учетом общего объема текста, специальных словарей и т.п.

Таким образом, законы Ципфа отражают некоторое общее свойство, присущее разным языкам. Это свойство заключается в том, что в каждом тексте на любом естественном языке имеется некоторое количество наиболее употребимых слов. Причем число этих слов значительно меньше общего числа слов, используемых в тексте.

Законы Ципфа универсальны. В принципе, они применимы не только к текстам.

В аналогичную форму выливается, например, зависимость количества городов от числа проживающих в них жителей. Характеристики популярности узлов в сети Интернет – тоже отвечают законам Ципфа.

Законы Ципфа проявляются и при исследовании документальных информационных потоков (ДИП). В этом случае первый закон Ципфа представляют через абсолютную частоту появления слов:

где fi – абсолютная частота появления слова в текстах документального потока; ri ранг слова в ранговом распределении; С – частота появления слова 1-го ранга, которую для данного ДИП можно считать эмпирической константой.

  • [1] Bonitz М. Scientometrie, Bibliometrie, Informetrie / М. Bonitz // Zbl. Biblioteksw. 1982. Vol. 86. № 1. S. 19-24.
  • [2] Zipf G. К. Human behaviory and principle of ieast effort / G. K. Zipf // Cambridge (Mass.) : Addisson – Wesiey, 1949. Vol. XI; Zipf G. K. Selected studies of the principle of relative frequency in language / G. K. Zipf // Cambridge (Mass.) : Harvard Univ . Press., 1932.
 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Предметы
Агропромышленность
Банковское дело
БЖД
Бухучет и аудит
География
Документоведение
Журналистика
Инвестирование
Информатика
История
Культурология
Литература
Логика
Логистика
Маркетинг
Медицина
Менеджмент
Недвижимость
Педагогика
Политология
Политэкономия
Право
Психология
Религиоведение
Риторика
Социология
Статистика
Страховое дело
Техника
Товароведение
Туризм
Философия
Финансы
Экология
Экономика
Этика и эстетика