Поисковые системы в Интернете

Базовые технологии информационного поиска в Интернете

Возможность поиска информации в Интернете является одним из самых востребованных сервисов Глобальной сети. Это естественно, поскольку как только Интернет стал общедоступным средством обмена информацией, все его участники начали активно размещать в нем ту информацию, которой они хотели бы поделиться с интернет-сообществом. Объем этой информации начал расти экспоненциально, существенно опережая процесс роста числа компьютеров в сети. Относительная простота языка создания веб-страницы – HTML (Hyper Text Mark-up Language – язык разметки гипертекста) – сделала процесс создания страниц и размещения их в сетевом информационном пространстве доступным не только неспециалисту в области программирования, но практически любому желающему. Было подсчитано, что каждые три секунды в Интернете появляется новая веб-страница. В ситуации постоянного неконтролируемого роста и обновления информации насущной потребностью стало создание средств ориентации в открытом и практически безграничном информационном пространстве, что и было сделано с помощью разнообразных средств поиска нужной пользователю информации.

Программисты в разных странах начали работать над созданием средств быстрого оперативного мониторинга сетевого пространства – надо было научиться анализировать в первую очередь семантические доминанты информационного содержимого каждой доступной веб-страницы, а также фиксировать, на каком веб-сервере и на какой веб-странице находится эта информация (т.е. заносить в базу данных веб-адрес страницы и ее краткое семантическое описание, чаще всего в виде последовательности ключевых слов и (или) тезаурусных характеристик содержимого страницы).

Ответом на этот запрос интернет-сообщества стало появление специализированных компьютерных программ – поисковых роботов (от англ. web- crawler, web-spider – ползающее насекомое, паук (в Интернете)), постоянно собирающих информацию о содержимом всех доступных веб-страниц Интернета, фиксирующих веб-адреса этих страниц и поставляющих собранную информацию в оперативно обновляемые базы данных, которые хранятся па специализированных серверах Интернета. Доступ к сформированным таким образом базам данных предоставляется через специальный поисковый сервер (от англ. Search engine, или Web search engine, – инструмент для поиска в Интернете), или поисковую систему, поисковую машину, поисковик, как их называют в России. Наиболее эффективно работающие программы поиска и автоматизированного описания информации позволили нескольким коммерческим компаниям сформировать достаточно большие базы данных о содержании Интернета и стать лидерами рынка поисковых услуг.

Первые эффективные поисковые системы для индексации и поиска информации в Интернете были созданы в США, из них наиболее успешными и популярными были появившиеся в 1995 г. поисковые серверы Lycos, Yahoo и Alta Vista. Эти системы очень быстро стали известны во всем мире и на долгое время практически превратились в монополистов на рынке информационного поиска – в первую очередь для англоязычных сайтов Интернета. Однако по мере того как в Интернете опережающими темпами шел рост информационного потока нс только па английском языке, но и на других мировых языках, возникла потребность в поисковых системах, которые умели бы индексировать информацию на разных языках (и в первую очередь на языках, письменность которых не была основана на латинском алфавите, а также для языков, грамматическая система которых существенно отличается от грамматики английского языка). Для решения этой задачи в разных странах начали появляться проекты по созданию национальных поисковых систем, например, российские проекты "Яндекс" (Yandex) и "Рамблер" (Rambler), китайский Baidu, корейский Naver и др. Не все такие проекты были успешными, тем не менее необходимо отметить, что по охвату неанглоязычного сегмента Интернета и по полноте информационного наполнения проиндексированной базы данных сегодня в мире полноценно функционируют несколько национальных поисковых систем, в первую очередь это поисковики, созданные в России (например, лидеры среди русскоязычных поисковых систем "Яндекс" и "Рамблер") и в Китае (например, лидер среди китай- скоязычных поисковых систем Baidu).

Для справки

Основы русскоязычного интернет-поиска. Основной проблемой, с которой столкнулись разработчики поисковых систем при анализе русскоязычной информации, стала проблема организации морфологического поиска. То есть поисковая система должна была научиться искать все формы любого слова, независимо от того, в какой форме это слово введено пользователем в строку поиска. Как известно, русский язык обладает развитой системой словоизменения, поэтому программистам, которые работали над созданием алгоритмов семантического описания содержания вебстраницы, необходимо было закодировать все русские словоизменительные модели в алгоритмическом формате. Выдающуюся роль в решении этой задачи сыграло появление фундаментального исследования "Русское именное словоизменение" и "Грамматического словаря русского языка" А. А. Зализняка. Описанные в нем модели легли в основу практически всех видов компьютерной обработки текстов на русском языке (русскоязычных спелчекеров, веб-поиска и т.п.), поэтому А. А. Зализняк может быть назван одним из "родителей" русскоязычного Интернета, поскольку именно его научные разработки во многом обеспечили распространение русского языка в мировом интернет-пространстве (по некоторым данным, русский язык сегодня стал вторым по частоте использования во Всемирной паутине после английского языка)[1].

  • [1] Russian is now the second most used language on the web. Posted bv Matthias Gelbmann on 19 March 2013 in News // Content Languages. URL: w3techs.com/blog/entry/russian_ is_now_the_second_most_used_language_on_the_web (дата обращения: 30.01.2015).
 
< Пред   СОДЕРЖАНИЕ     След >