
           .gif)

Обзор подготовил Сергей Маленкович
Как не заблудиться в городе WWW Искать по-русски
|
Часть 2. Начало в № 11(61) от 6 июля 1999 года.
Все описанные в прошлом номере поисковые системы имеют огромные индексы, высокое быстродействие, разнообразный набор средств для задания критериев поиска. Но весь этот арсенал становится частично или даже полностью неэффективным, когда приходится искать ресурсы на русском языке. Это связано с многочисленными отличиями русского языка от языков романской группы (особенно английского), на которые ориентированы эти системы. Среди проблем - множество кодировок для русского языка и особенности русской морфологии. Неудивительно, что как только объем информации в российской части Интернет стал достаточно большим, появились на свет российские каталоги и поисковые машины.
Релевантность - это мера соответствия получаемого результата желаемому, или, в терминах поисковых систем, соответствие ответа запросу.
Rambler
Тип: поисковая машина с полнотекстовым индексом.
URL: http://www.rambler.ru
Индексируемые ресурсы: WWW, Usenet (Relcom).
Владелец: Stack Ltd.

Rambler - одна из самых молодых поисковых машин (осень 1996 г.), авторы которой учли опыт и ошибки предыдущих попыток создать поисковую машину. На сегодняшний день это самая мощная и самая популярная поисковая машина в российской части Интернет. Объем ее индекса – более 2 миллионов страниц, ежедневно добавляется и обновляется более 10 тысяч новых документов и статей из бесплатных групп Relcom. Rambler поддерживает все кодировки русского языка, обладает высоким быстродействием, кроме того, в последнее время система функционирует постоянно и работает очень стабильно, что для российских систем такого типа пока является достижением, а не нормой. На Rambler функционирует также рейтинговая система Rambler's Top 100, в которой можно найти наиболее посещаемые сайты по определенной тематике. Возможно, это когда-нибудь станет полноценным каталогом.
Интерфейс у Рэмблера простой и понятный – в центре экрана находится поле ввода и две большие кнопки – "Go" и "Advanced" (почему-то не переведенные на русский язык), с их помощью можно начать поиск по запросу и перейти к расширенному поиску. Слева несколько ссылок позволяют перейти к справочной информации, ссылки вверху страницы позволяют сменить кодировку для русского текста.
Запросов на естественном языке Рэмблер не поддерживает, поэтому надо вводить ключевые слова, желательно без окончаний. К услугам пользователя ввод масок (?- любая буква, * - любое окончание слова).
На странице результатов поиска Рэмблер выводит исчерпывающую информацию по каждому результату – ссылка, название страницы, размер страницы, кодировка, контекст, в котором встречается слово и процент релевантности. Кроме того, выводится количество результатов для всех частичных поисков (совпадение одного слова), нажав на соответствующую ссылку эти результаты можно просмотреть. К сожалению, релевантность результатов для простого поиска на Rambler оставляет желать лучшего.
Средства для сложного поиска на Rambler довольно многообразны – Rambler является лучшим кандидатом на звание "Русская Альтависта". Помимо стандартных логических операций над терминами, предлагаются такие средства, как назначение весовых коэффициентов словам (для этого перед словом нужно поставить несколько плюсов – очень желательно присутствие слова или минусов – слово нежелательно), поиск только в определенной части документа, поиск по URL.
Резюме: Поисковая система Rambler является лучшим выбором для осуществления сложного поиска в российской и экс-СССР части Интернет. Для поиска высококачественной информации по общей тематике можно воспользоваться рейтингом Rambler's Top 100.
Russia On the Net
Тип: каталог (на английском языке).
URL: http://www.ru
Индексируемые ресурсы: WWW.
Владелец: Demos Co. Ltd.

Один из первых каталогов в российском Интернете, создан и подерживается компанией Демос. Как ни странно, до недавнего времени этот каталог был выполнен на английском языке, хотя представленные в нем ресурсы – русскоязычные.
Список категорий в каталоге довольно небольшой – всего 9 основных разделов: "Культура и искусство", "Бизнес", "Хобби, отдых и развлечения", "Компьютеры и Интернет", "Средства массовой информации", "Наука и образование", "Справочная информация", "Политика и право", "Персональные страницы". Русская и английская версия каталогов различаются по содержанию, поэтому надо просматривать обе версии.
Поиск работает и в английский, и в русской базе данных одновременно, надо только включить соответствующую опцию возле поля ввода запроса. Система поиска очень простая, не поддерживается расширенный поиск и логические операции над терминами. В связи с тем, что база данных каталога не очень большая, можно вводить одно-два ключевых слова и не бояться утонуть в тысячах ссылок.
Резюме: Эта система очень полезна при поиске серверов солидных российских компаний, популярных электронных средств массовой информации и прочего.
Апорт + Ау
Тип: поисковая машина с полнотекстовым индексом + каталог.
URL: http://www.aport.ru, http://www.au.ru, http://atrus.ru
Индексируемые ресурсы: WWW.
Владелец: Agama Ltd.
Новая двойная звезда на небосклоне российского Интернета – поисковая машина Апорт (более 1,2 миллионов документов) и каталог Ау (6000 страниц + 4000 в работе) являются пока молодыми проектами, которые претерпевают много изменений, поэтому рассказывать о них довольно трудно. Но уникальные возможности этих систем делают их полезнейшими инстументами для исследования российской части Internet.
Простой поиск на Апорт осуществляется с учетом русской морфологии (разыскиваяются все формы введенных слов) и включает в себя такое уникальное средство, как перевод запроса и результатов поиска. Эта система, созданная при помощи фирмы ПРОМТ, позволяет искать документы на двух языках сразу и выводить все результаты на русском языке.
Существует 3 формы вывода результатов, даже "минимальная" форма вывода кажется несколько громоздкой – помимо названия и URL документа, выводится его размер и графическое представление релевантности в виде полосы. Для каждого результата доступна функция "реконструкция документа", которая позволяет получить представление о его содержании, даже если сам документ недоступен, например, уничтожен.
Расширенный поиск позволяет осуществлять все логические операции над ключевыми словами и даже указывать максимальное расстояние (в словах или предложениях) между терминами.
Резюме: Апорт и АУ являются перспективными разработками для поиска в российской части Интернет, полезность которых будет расти по мере наполнения их баз данных.
Читайте о новом виде каталога АУ - "Ау!" меняет имя".
Яndex
Тип: поисковая машина с полнотекстовым индексом.
URL: http://yandex.ru
Индексируемые ресурсы: WWW.
Владелец: CompTek.

Фирмой CompTek довольно давно разработана система Яndex, позволяющая создавать поисковые службы, учитывающие особенности русской морфологии. Но только недавно этой фирмой была открыта своя поисковая машина, демонстрирующая мощь этой технологии. Сегодня в индексе системы содержится около 2 миллионов URL.
Простой поиск, доступный с главной страницы, позволяет формулировать запрос на естественном языке (примеры запросов приведены под полем ввода), не утруждая пользователя необходимостью ломать голову над построением запроса. Результаты такого поиска имеют высокую релевантность, что еще раз доказывает эффективность анализа документов в Яndex.
Тем, кому нужно построить сложный запрос, придется выучить довольно сложный язык задания запросов, но эта затрата времени будет оправдана. Среди возможностей Яndex – указание расстояния между словами (расстояние в словах, предложениях, абзацах), назначение словам весовых коэффициентов, задание уточняющих выражений, ограничение поиска только фрагментом документа и проч.
Результаты поиска выводятся в очень компактной форме, но при этом выводится вся необходимая информация – название и URL документа, размер и кодировка, контекст, дата и время создания. Кроме того, возле каждого результата есть ссылка "найти похожие документы", помогающая уточнить тему поиска.
Резюме: Яndex является хорошей отправной точкой для простого поиска в российском Интернете. Кроме того, эта система незаменима, когда нужно задать сложные связи между ключевыми словами в качестве критерия поиска.
|

           .gif)
|