Читаем Профессиональный поиск в Интернете полностью

Постепенный рост объема данных в семантических форматах выявил потребность в своеобразных «точках доступа» – сервисах, аккумулирующих сведения о свободно доступных данных в семантических форматах, к которым могли бы обращаться как приложения-агенты, так и пользователи-люди. В «обычном» вебе эту роль играют поисковые системы и каталоги. Аналогичным путем пошла эволюция и в современном семантическом вебе. Такие поисковые системы иногда даже называют «семантическими приложениями второго поколения». Этим подчеркивается значительное улучшение удобства работы с информацией в новых форматах, в том числе для широких кругов пользователей. Данная глава посвящена лучшим и наиболее показательным представителям семейства поисковиков для семантического веба.

Требования к представленным в этой главе поисковым машинам были следующие. Все предлагаемые сервисы должны быть общедоступными. Поисковики обязательно должны были уметь работать с документами в основных форматах семантического веба. Поскольку такие ресурсы претендуют на роль универсальных точек доступа к семантическим данным, поисковики должны обладать удобным пользовательским интерфейсом, предназначенным для пользователя-человека, а также предусматривать возможность подключения к поисковику внешних приложений – программ-агентов, ориентированных на автоматические сбор и систематизацию данных.

Семантическая разметка веб-документов предлагает широкие возможности по составлению сложных запросов, во многом отличающиеся от привычных опций «обычных» интернет-поисковиков. Эффективные поисковики должны обладать соответствующими инструментами составления сложных запросов, а также различными вспомогательными средствами последующего уточнения запросов и фильтрации результатов.

<p>Swoogle</p>

Ведущие роли в разработке инструментов для поиска в семантической сети играют исследовательские проекты различных научных и учебных заведений. Сейчас это настоящие локомотивы семантического веба. Выбор и возможности академических проектов пока заметно превосходят общедоступные предложения коммерческих разработчиков. Обзор поисковиков для Web 3 0 начнем рассказом о сервисе Swoogle, разработанном специалистами университета. Мэриленда (США).

Swoogle индексирует документы в форматах N-Triples, RDF/XML и N3 (RDF). Обрабатываются как полностью составленные с помощью этих языков документы, так и «обычные» веб-страницы, содержащие фрагменты семантического кода. Индексная база у Swoogle собственная, построенная на информации из открытых сетевых источников, и на сегодняшний день содержит сведения примерно о трех миллионах документов, о миллиарде отдельных высказываний-триплетов, а также десяти тысячах онтологий. Это достаточно серьезные цифры.

Воспользоваться поисковиком может любой желающий. На сервисе предусмотрена бесплатная регистрация. Без регистрации по запросу демонстрируется только первая сотня результатов. По всей видимости, это призвано несколько снизить нагрузку на серверы проекта, поскольку основное преимущество обладателей аккаунта – получение именно полных результатов поиска. Это немаловажно, поскольку Swoogle поддерживает подключение программ-агентов. Данные им выдаются в формате RDF.

Предназначенный для просмотра человеком интерфейс Swoogle весьма прост и лишен каких-либо излишеств. Доступно несколько специфических режимов поиска. Наиболее строгим является режим Ontology. При поиске в этом режиме в результаты попадают только документы, содержащие определения свойств семантических объектов. Пожалуй, наиболее удобным при личном обращении пользователя к ресурсу является режим Document, в котором поиск ведется среди всех проиндексированных документов. Третий режим – Term – предлагает поиск отдельных триплетов. Он выдает максимальное количество результатов, однако удобен скорее для машинной обработки. Swoogle обладает собственным языком составления сложных запросов, который состоит из собственных операторов, а также поддерживает синтаксис запросов Apache Lucene. Перечень операторов Swoogle можно найти в приложении А. По умолчанию поисковый оператор и его значение разделяются двоеточием. Поддерживается поиск по фразе с использованием кавычек.

Страница выдачи Swoogle максимально проста (рис. 10.1). В списке предоставляются только ссылки на ресурсы и краткие комментарии. Каких-либо дополнительных инструментов просмотра или фильтров не предусмотрено. Компенсацией может служить достаточно высокая скорость работы сервиса.

Рис. 10.1. Страница выдачи поисковой системы Swoogle

<p>VisiNav</p>

VisiNav – это еще один университетский проект поиска в семантическом вебе. У данного сервиса ирландские корни. Принадлежит он институту Digital Enterprise Research Institute (DERI). Размер индексной базы заявлен в объеме примерно двух миллионов документов и тринадцати с половиной миллионов высказываний-триплетов. Собирается база собственными роботами VisiNav. Главный недостаток VisiNav – редкое обновление базы.

Перейти на страницу:

Похожие книги

Полное руководство по Microsoft Windows XP
Полное руководство по Microsoft Windows XP

В книге известного американского автора описывается среда ОС Windows XP и принципы ее функционирования, приведен сравнительный анализ Windows XP с предшествующими версиями операционной системы Windows. Рассматриваются вопросы применения и модификации нового интерфейса с целью получения прямого доступа ко всем функциям Windows XP обсуждаются варианты подключения к компьютерным сетям. Несколько разделов посвящены работе с реестром и конфигурационными файлами, мультимедийным функциям и разнообразным системным службам, а также методам решения проблем с программным обеспечением и оборудованием. Особое внимание уделено обеспечению безопасности операционной системы.Издание адресовано пользователям и сетевым администраторам, желающим активно применять возможности операционной системы Windows XP (в том числе и недокументированные).

Джон Поль Мюллер , Питер Нортон

ОС и Сети, интернет / ОС и Сети / Книги по IT
Недокументированные и малоизвестные возможности Windows XP
Недокументированные и малоизвестные возможности Windows XP

Книга содержит подробные сведения о таких недокументированных или малоизвестных возможностях Windows XP, как принципы работы с программами rundll32.exe и regsvr32.exe, написание скриптов сервера сценариев Windows и создание INF-файлов. Р' ней приведено описание оснасток, изложены принципы работы с консолью управления mmc.exe и параметрами реестра, которые изменяются с ее помощью. Кроме того, рассмотрено большое количество средств, позволяющих выполнить тонкую настройку Windows XP.Эта книга предназначена для опытных пользователей и администраторов, которым интересно узнать о нестандартных возможностях Windows. Тем более что довольно часто эти возможности позволяют обойти ограничения на те или иные функции Windows, установленные администратором. Р

Роман Александрович Клименко

ОС и Сети, интернет / ОС и Сети / Книги по IT