Читаем Профессиональный поиск в Интернете полностью

При поиске программ первую остановку имеет смысл сделать на проекте SoftSearch. Хорошая работа с каталогами и собственная рейтинговая система способствуют повышению качества поиска. Неплохие результаты при поиске зарубежных программ можно получить с помощью системы Exefind. Поисковик Quweas во многом уступает конкурентам, однако отличается уникальной возможностью поиска программ для редких компьютерных платформ.

<p>Глава 3</p><p>Метапоиск</p>

Сам факт наличия множества индексных баз данных сетевых документов, причем собранных с использованием разных методов и алгоритмов, порождает экологическую нишу для целого класса метапоисковых систем. Такие системы не занимаются самостоятельным сбором информации, а отсылают запрос пользователя на несколько других поисковых серверов, объединяют результаты поиска, производят их дополнительную обработку и выдают обобщенный ответ. Это увеличивает широту охвата поиска за счет обработки данных различных индексных баз. Кроме того, метапоиск экономит время пользователя, которое иначе пришлось бы потратить на личное обращение ко всем нужным серверам. Такова схема работы полноценной метапоисковой системы. В то же время существует ряд сервисов, пренебрегающих собственным анализом полученных результатов. В предельном случае вы можете просто получить пару-тройку отдельных страниц с результатами разных поисковиков. Данный подход, в общем-то, тоже имеет право на существование, однако далее мы остановимся только на нескольких по-настоящему инновационных системах. Дело в том, что проблема обработки результатов метапоиска стоит даже более остро, чем в случае отдельного поисковика. Не удивительно, что на метапоисковиках можно увидеть немало интересных экспериментальных решений.

У всех ведущих современных интернет-поисковиков есть одна общая черта – они выдают результаты единым списком, отсортированным по релевантности ссылок. При всех своих достоинствах данная схема порождает для пользователей проблемы при большом количестве ссылок в списке выдачи Не секрет, что мало кто просматривает на поисковике больше одного-двух экранов результатов, на которых может так и не найтись требуемой информации. В то же время нужные данные в итоге могут оказаться на сайте, занимающем какую-нибудь 108-ю позицию в общем списке. Получается парадоксальная ситуация: информация в Сети есть, она найдена, однако останется навсегда скрытой для пользователя, если он не сможет грамотно уточнить запрос или составить сложное поисковое выражение.

Одним из ответов на данный вызов стала технология кластеризации результатов интернет-поиска. Ее преимущества по сравнению с аналогами – возможность сравнительно простой автоматизации процесса. Кластерные технологии не требуют какой-либо специфической разметки веб-страниц, как это принято в комплексе технологий «семантического веба». Они также не нуждаются в сравнительно трудоемкой предварительной подготовке массива веб-страниц, используемой в веб-каталогах. Цена этого преимущества – некоторый процент информационного шума, неизбежного при автоматической обработке результатов поиска в Сети.

Получив запрос, кластерный поисковик, как и обычная поисковая система, сначала находит в своей базе соответствующие запросу веб-страницы. Различия начинаются на этапе сортировки результатов. Система проводит анализ найденных страниц и находит на них дополнительные ключевые слова, встречающиеся вместе с терминами из поступившего от пользователя запроса. Получившиеся в результате такого анализа подмножества страниц называются кластерами и с большой вероятностью относятся к разным аспектам темы запроса. Далее в недрах поисковика происходит следующее важное событие – определение релевантности ссылок и их позиции в результатах. Кластерная машина проделывает эту операцию отдельно для каждого кластера. При этом ссылки со страниц одного кластера, то есть сайтов аналогичной или схожей тематики, ценятся выше, чем ссылки с посторонних, пусть даже очень популярных ресурсов. В результате позиция сайта в списке выдачи по кластеру является своеобразным отражением ее оценки коллегами по тематическому цеху, что работает на качество поиска. Кроме того, ранжирование ссылок по отдельным кластерам позволяет вывести на первые позиции в кластерах полезные, но не «раскрученные» ресурсы, которым в обычных поисковиках с выдачей результатов единым списком и бесконечными войнами оптимизаторов мало что светит.

<p>Nigma</p>

Российские разработчики поисковых систем не остаются в стороне от современных тенденций – разработка кластерной машины Nigma ведется исследовательской группой из МГУ им. М. В. Ломоносова в сотрудничестве со Стэнфордским университетом. Предварительная версия сервиса была запущена в начале 2005 года. Nigma опрашивает все крупные базы, содержащие документы на русском языке, в числе которых Google, Yahoo! AltaVista, MSN, Яндекс и Рамблер, что обеспечивает широкий охват источников. Кроме того, постепенно генерируется собственная индексная база Nigma.

Перейти на страницу:

Похожие книги

Полное руководство по Microsoft Windows XP
Полное руководство по Microsoft Windows XP

В книге известного американского автора описывается среда ОС Windows XP и принципы ее функционирования, приведен сравнительный анализ Windows XP с предшествующими версиями операционной системы Windows. Рассматриваются вопросы применения и модификации нового интерфейса с целью получения прямого доступа ко всем функциям Windows XP обсуждаются варианты подключения к компьютерным сетям. Несколько разделов посвящены работе с реестром и конфигурационными файлами, мультимедийным функциям и разнообразным системным службам, а также методам решения проблем с программным обеспечением и оборудованием. Особое внимание уделено обеспечению безопасности операционной системы.Издание адресовано пользователям и сетевым администраторам, желающим активно применять возможности операционной системы Windows XP (в том числе и недокументированные).

Джон Поль Мюллер , Питер Нортон

ОС и Сети, интернет / ОС и Сети / Книги по IT
Недокументированные и малоизвестные возможности Windows XP
Недокументированные и малоизвестные возможности Windows XP

Книга содержит подробные сведения о таких недокументированных или малоизвестных возможностях Windows XP, как принципы работы с программами rundll32.exe и regsvr32.exe, написание скриптов сервера сценариев Windows и создание INF-файлов. Р' ней приведено описание оснасток, изложены принципы работы с консолью управления mmc.exe и параметрами реестра, которые изменяются с ее помощью. Кроме того, рассмотрено большое количество средств, позволяющих выполнить тонкую настройку Windows XP.Эта книга предназначена для опытных пользователей и администраторов, которым интересно узнать о нестандартных возможностях Windows. Тем более что довольно часто эти возможности позволяют обойти ограничения на те или иные функции Windows, установленные администратором. Р

Роман Александрович Клименко

ОС и Сети, интернет / ОС и Сети / Книги по IT