• Поиск по ключевому слову
— автоматизированная технология, основанная на поиске вхождения в информационные «выжимки», хранящиеся для каждого сайта из числа включенных в базу данных поискового сервера, заданного пользователем слова (слов) или фразы. Ключевое слово/фраза вводится в специально отведенном поле. После подтверждения ввода (щелчком «мышью» на имеющейся экранной кнопке или нажатием клавишиИнформационное наполнение (база данных) обычно создается автоматически работающей на данном сервере программой, рассылающей по сети автономные модули — «пауки
», выполняющие сбор, первичный анализ и пересылку на поисковый сервер информации об обрабатываемых сайтах.Преимущества: значительно больший, чем для каталогов, охват имеющейся в Интернете информации.
Недостатки: значительное количество «информационного шума» в результирующем списке (ссылок на сайты, в содержимом которых заданное ключевое слово употреблено лишь формально).
Пример: поисковая служба «Яндекс» (рис. 1).
Рис. 1
• «Пауки»
— автономные программные модули, рассылаемые поисковым сервером на анализируемые сайты. Обычно «паук» выполняет сбор информации об анализируемом сайте, ее первичную обработку (создание «информационной выжимки») и пересылку на поисковый сервер, где основная программа добавляет эти сведения в базу данных. При обнаружении на анализируемом сайте ссылок на другие сайты «паук» может отправлять на них свои копии. После завершения работы «паук» самоуничтожается.Технология «пауков» позволяет включить в сферу поиска максимально возможное количество сайтов, но у многих специалистов вызывает опасение тот факт, что способность этих программных модулей к автономной работе на других серверах (точнее, заложенное в системах безопасности этих серверов разрешение на допуск «паука» к информации и его запуск на исполнение) может стать «лазейкой» для создателей компьютерных вирусов и каких-либо разрушительных действий.
• Логика построения поискового запроса
— правила, позволяющие формировать правильную ключевую фразу из набора ключевых слов. В зависимости от поставленной поисковой задачи возможны следующие ситуации:— точное соответствие, когда в искомом тексте должна присутствовать именно эта фраза и никакая иная (пример: компьютерная мышь);
— в искомом тексте должны находиться все заданные ключевые слова (пример: мопеды И мотоциклы);
— достаточно, если в искомом тексте присутствует хотя бы одно ключевое слово (пример: самолет ИЛИ вертолет);
— одно или несколько ключевых слов не должно входить в искомый текст (скажем, чтобы отсечь большой массив «ложных» ссылок; пример: локомотив НЕ футбол).
Иногда отдельно рассматривается ситуация, когда еще заданные ключевые слова должны не только присутствовать в тексте, но и располагаться рядом, например, в пределах одного абзаца. Важным часто является и регистр букв (строчной или прописной), например, ключевое слово «лебедь» позволяет найти и птицу, и генерала, а «Лебедь» — только фамилию.
Современные поисковые серверы, как правило, предоставляют возможность ввода ключевой фразы в свободной форме и автоматически выполняют ее смысловую предобработку: выделение ключевых слов с отсечением незначащих (предлогов, местоимений и пр.), вариации окончаний слов, иногда автоматический перевод фразы на другие языки (например, заданная пользователем фраза «книги по программированию на Бейсике» автоматически превращается в запрос типа: (книга ИЛИ книге ИЛИ книгу ИЛИ книги ИЛИ книг ИЛИ book ИЛИ books) И (программирование ИЛИ программированию ИЛИ программирования ИЛИ programming) И (Бейсик ИЛИ Бейсике ИЛИ Бейсика ИЛИ Бейсику ИЛИ Basic ИЛИ BASIC). Кроме того, при задании нескольких ключевых слов в результирующий список могут включаться и сайты, в которых содержатся не все эти ключевые слова (на поисковом сервере «Яндекс» в этом случае после аннотации, помещенной в результирующий список, делается примечание: «Нестрогое соответствие»). Дополнительно предусматривается сортировка найденных ссылок в списке по «релевантности» — этот термин подразумевает максимальное соответствие найденных страниц заданному ключу поиска, которое программа определяет на основе анализа количества вхождений ключевых слов в текст, место, в котором они обнаружены (наиболее подходящими, например, считаются страницы, где ключевые слова обнаружены в заголовке документа), благодаря использованию алгоритмов «искусственного интеллекта» (хотя они пока еще далеко не совершенны). Соответственно, в результирующем списке наиболее подходящие ссылки выдаются первыми.