О чем это говорит? Ведь вторая цитата заведомо присутствует в найденных нами в первом эксперименте текстах. Но она — не проиндексирована. То есть поисковая система (в нашем случае Яndex) не связывает ее с адресами, указывающими на текст “Анны Карениной”. Потому, в частности, что вторая цитата взята из середины абзаца и не содержит никаких синтаксических конструкций формального языка и собственных имен. Один и тот же по внешнему виду текст может быть в Сети более или менее активен. Он получает возможность, используя поисковые системы, продвигать себя навстречу читателю, облегчая ему поиск и становясь более актуальным сам. Текст, постоянно читаемый и перечитываемый поисковыми системами, не лежит в Сети — он движется, меняется, и происходит это, можно сказать, без участия реального читателя.
Когда писатель пишет и публикует текст, он хочет донести до читателя свою весть — message, как сегодня принято говорить. Чтобы это произошло, текст должен быть, во-первых, доступен, во-вторых, прочитан. Текст должны найти те, кто его ищет, может быть, даже не подозревая о его существовании.
Автор текста в Сети должен четко представить себе те запросы, которые будут адресованы поисковым системам и на которые именно его текст отвечает максимально полно. То есть если его ресурс попадет в отбор, то релевантность ресурса по оценке поисковой программы — другими словами, наиболее полное соответствие запросу — должна быть высокой. Релевантность можно представить себе как способ сортировки найденных по запросу документов. Чем больше документ соответствует запросу, тем выше в списке ответов он должен находиться, тем выше его значимость. Для достижения этого результата могут учитываться следующие параметры: количество найденных слов, “контрастность” слова (его относительную частоту для данного документа), расстояние между словами, положение слова в документе и в зонах документа. Релевантность документа может определяться количеством указывающих на него ссылок и весом этих ссылок — чем солиднее ссылающийся ресурс, тем больше вес. Но этим показателем оперировать крайне трудно. Если вы получите несколько сот или тысяч адресов, то вряд ли вам придется изучать все из них: первые десять — двадцать, вероятно, содержат требуемую информацию.