Читаем Новый Мир ( № 1 2002) полностью

Все тексты в Сети проиндексированы в разной степени: одни подробно и тщательно — можно зарегистрировать ресурс в поисковой системе и тем обратить на него ее внимание, другие — проигнорированы поисковыми системами вовсе (в частности, при формировании страницы можно “попросить” робот не индексировать ваш ресурс) и потому недоступны при свободном поиске.

В первую очередь индексируются и наиболее легко находятся при поиске синтаксически выделенные конструкции языка. И здесь нужно иметь в виду, что в Сети текст пишется и представляется не на естественном языке — русском или английском, а на языке разметки документа —htmlилиdhtml.И конечно, более понятны поисковой программе именно синтаксические конструкции этих языков. То есть она регистрирует титулы, ключевые слова, заголовки всех уровней, ссылки, начала абзацев и другие элементы формальной структуры и обязательно также имена собственные.

Поставим простой эксперимент. Попытаемся отыскать, используя Яndex, “Анну Каренину” Льва Толстого. Сначала для поиска используем первую фразу романа: “Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему”. Количество найденных адресов будет очень велико, и не все они будут указывать на роман. Некоторые — на собрания афоризмов. Я задам более жесткое требование и буду искать в найденном эпиграф к роману: “Мне отмщение, и Аз воздам”. В результате отбора поисковая система выдаст одиннадцать адресов, из которых десять действительно будут указывать на текст романа Толстого.

Теперь я изменю условия и буду искать фразу из главы 17-й: “Это такая честная, правдивая натура, и сердце золотое”. Результатом (точным, а другие нас не устраивают, фраза заведомо звучит так) будут четыре ссылки, из которых только две укажут толстовский текст —www.klassika.ruиorel.rsl.ru/nettext/russian/tolstoy_lev/annak1.htm,— и оба эти адреса уже вошли в список, который мы получили в предыдущем эксперименте. (Если вы повторите мой эксперимент, результат может быть совсем другим. Сеть меняется каждый день, не говоря о нескольких месяцах. Написано 2.10.2001.)

Перейти на страницу:

Похожие книги

Книжный вор
Книжный вор

Январь 1939 года. Германия. Страна, затаившая дыхание. Никогда еще у смерти не было столько работы. А будет еще больше.Мать везет девятилетнюю Лизель Мемингер и ее младшего брата к приемным родителям под Мюнхен, потому что их отца больше нет – его унесло дыханием чужого и странного слова «коммунист», и в глазах матери девочка видит страх перед такой же судьбой. В дороге смерть навещает мальчика и впервые замечает Лизель.Так девочка оказывается на Химмель-штрассе – Небесной улице. Кто бы ни придумал это название, у него имелось здоровое чувство юмора. Не то чтобы там была сущая преисподняя. Нет. Но и никак не рай.«Книжный вор» – недлинная история, в которой, среди прочего, говорится: об одной девочке; о разных словах; об аккордеонисте; о разных фанатичных немцах; о еврейском драчуне; и о множестве краж. Это книга о силе слов и способности книг вскармливать душу.

Маркус Зузак

Современная русская и зарубежная проза