Честно говоря, ни о каких тайнах в этой главе я рассказывать не буду. Заголовок ввел вас в заблуждение, чтобы вы бросились читать этот раздел. Вы уже наверняка имеете представление о том, как работают поисковики. Но если нет, то сейчас я вкратце это объясню.
Поисковики используют коды, которые называют поисковыми роботами, или «веб-пауками». Такие пауки «проползают» (и здесь я ничего не выдумываю!) по каждой размещенной в Сети странице и кэшируют (то есть сохраняют) все, к чему получают доступ. Некоторые файлы (например, robots.txt) стараются не позволить такому пауку проиндексировать определенные разделы сайта. Но обычно под индексацию и кэширование попадает большая часть информации.
Затем весь кэш сохраняется в базе данных, и когда вы вводите текст запроса в окошко на странице поисковика, то получаете результаты в духе тех, что изображены на скриншоте 2.13.
Хочу подчеркнуть, на какие детали на этом изображении необходимо обратить внимание. Во-первых, за 0,59 сек поисковик выдал 105 000 результатов. Как же ему удалось просмотреть 20 трлн страниц меньше чем за секунду? Вы же помните: информация о каждой из них была в свое время занесена в специальную базу данных, которая и позволяет достигать такой умопомрачительной скорости поиска.
Пролистать 105 000 ссылок вы вряд ли сможете физически. Поэтому позвольте рассказать вам об операторах.
Google создал набор специальных слов (их и называют
Вот пара сайтов, на которых перечислены полезные операторы для Google (и даже некоторые для Yahoo! и Bing):
• https://support.google.com/websearch/answer/2466433?hl=en&ref_topic=3081620
• http://www.googleguide.com/advanced_operators_reference.html
А вот список операторов, которых считаю особенно полезными лично я:
• intext: этот оператор ищет ваш запрос в текстах веб-страниц и документах. Например, если ввести в поисковую строку intext: Альпина
, Google найдет для вас все тексты, в которых используется это слово. По запросу разведка intest: Альпина найдутся тексты по разведке, в которых есть слово «Альпина».• site: позволяет ограничить диапазон поиска конкретным сайтом. Например, по запросу разведка site: alpinabook.ru
вы найдете все о разведке на сайте издательства.• inurl: с одной стороны, он похож на предыдущий, однако ограничивает поиск указанным URL. Следовательно, если набрать inurl: alpinabook.ru
, в поиск будут включены все сайты, в ссылках которых встречается inurl: alpinabook.ru. Например, если бы существовал сайт с адресом http://all-book-publishers.ru/alpinabook.ru/, этот оператор нашел бы его, а site — нет.• filetype: как и следует из его названия, этот оператор ограничивает поиск по необходимому вам типу файлов. Можно искать файлы pdf, doc, xls, ppt и многие другие. Например, по запросу разведка filetype: pdf
найдутся PDF-файлы, имеющие отношение к разведке (а по запросу разведка filetype: pdf site: alpinabook.ru — все PDF-файлы о разведке на сайте издательства).• cache: этот оператор ищет попавшие в кэш домены, файлы или другие артефакты, указанные вами. Закэшированные, а не актуальные, то есть если кто-то недавно изменил информацию на странице или убрал ее, высока вероятность найти по этому запросу то, что владелец страницы решил скрыть. Например, cache: alpinabook.ru
покажет, как выглядела главная страница сайта издательства несколько дней назад.• info: выдаст вам информацию по указанному домену и связанные с ним страницы. Например, по info: alpinabooks.ru
можно найти информацию о сайте издательства, о самом издательстве, времени его работы и т. д.Как и большинство вещей, связанных с программным обеспечением, поиск в Google работает по определенным правилам:
• Поисковый запрос должен следовать за оператором через двоеточие (:), без пробелов. Например, если ввести запрос site: alpinabook.ru
, поиск будет ограничен ресурсом alpinabook.ru. Но если ввести site: alpinabook.ru, поиск ограничится пробелом после знака двоеточия. Запрос, как вы понимаете, нужных ответов не даст.