Читаем Google. Прорыв в духе времени полностью

– Ссылка в Интернете сродни ссылке в научной литературе, – пояснил Пейдж. – Но если вы просто будете подсчитывать количество ссылок в Сети, что делает большинство поисковых систем, у вас возникнут проблемы. Всемирная паутина – это не научная литература, здесь создать веб-страницы может любой желающий.

Программа PageRank – это, в принципе, модель пользования Интернетом. Скажем, у нас есть пользователь, который просто бродит по Сети. Он немного смахивает на обезьяну: сидит часами перед компьютером и тупо кликает на ссылки. Знакомая картина, не правда ли?

Аудитория дружно хохотнула.

– PageRank говорит: если какой-то значимый сайт указывает на тебя, ты получаешь частицу его значимости, – продолжил Пейдж. – Предположим, что на тебя указывает какой-то действительно стоящий сайт. Он для тебя намного ценнее любой «левой» веб-страницы. К примеру, если на главной странице Yahoo! есть на тебя ссылка, это просто здорово. Наличие на главной странице сайта Yahoo ссылки на твою веб-страницу говорит о том, что либо ты заплатил кому-то кучу денег, либо твоя страница действительно хороша. А вот наличие ссылки на твою веб-страницу на главной странице моего веб-сайта никому ни о чем не говорит. – И Пейдж разъяснил, как он разработал рецепт получения ранжированных результатов поиска. – Мы присвоили всем веб-страницам числа, примерно соответствующие степени их важности. Ранг отдельно взятой страницы – это сумма показателей всех веб-страниц, на которых есть ссылки на нее.

Но существует серьезная проблема. Некоторые, пытаясь обмануть поисковые механизмы, делают так, чтобы адреса их веб-сайтов располагались в списках результатов как можно выше. Поисковая система должна выиграть эту кибервойну: она должна стать «умнее» всех этих «хитрых» веб-сайтов.

– Доводилось ли вам сталкиваться с адресами порносайтов на страницах с результатами поиска? Те, кому доводилось, поднимите руки! – предложил Пейдж. – О, некоторые признались. На самом деле это большая проблема для поисковиков. Дельцов, стремящихся заработать любой ценой, мало волнует, какую информацию вы ищете, их вообще мало что волнует. Они просто хотят, чтобы на их веб-страницы заходило как можно больше пользователей.

Сформулировав проблему, Пейдж заметил, что он уже работает над возможными путями ее решения. Наиболее эффективным из них представляется разработка программы определения степени важности веб-сайтов, которая не позволит их операторам манипулировать поисковой системой. Google, ориентированная исключительно на пользователя, обеспечит наличие только релевантных адресов на страницах с результатами поиска.

Пейдж не преминул пустить пару критических стрел в адрес других поисковых систем:

– Поисковые механизмы функционируют отнюдь не блестяще. Если вы наберете, скажем, слово «AltaVista» в строке запроса другой поисковой системы, получите ли вы адрес главной страницы сайта AltaVista? Скорее всего, нет. А вот на Google вы гарантированно получите его в числе первых результатов. Всю соответствующую работу мы делаем сами. Объемы очень большие.

Ключевым принципом разработчиков Google стало разбиение сложных задач на отдельные подзадачи, которыми можно было бы заниматься параллельно. С помощью соответствующих математических уравнений и множества компьютеров ребята создали что-то вроде производственной линии для сбора, занесения в индекс и представления информации, руководствуясь при этом законом Мура, что позволяло приобретать компьютерное оборудование с меньшими затратами.

– Мы ползаем по Всемирной паутине – то есть заходим туда и загружаем весь Интернет. Мы загружаем приблизительно по сто страниц в секунду, – сообщил Пейдж. – Процесс этот довольно сложен. Все загруженные копии веб-страниц мы сохраняем на жестких дисках компьютеров, они нам нужны для анализа. Веб-страницы хранятся почти на всех компьютерах в нашей комнате.

Ларри рассказал о новшестве, обеспечившем Google превосходство над другими поисковыми машинами. Профессора и студенты Стэнфорда не пропускали ни слова.

– Когда в строке запроса набрано не одно слово, а словосочетание, наша система анализирует расстояние между словами <на скопированной веб-странице>. Для этого в соответствующую программу мы ввели систему уравнений. В другие поисковые системы заложен более примитивный подход, и потому они не в состоянии поспевать за темпами расширения Сети. На их фоне Google с ее программным обеспечением, позволяющим загружать веб-страницы максимально оперативно, явно выделяется. Если вы хотите набрать больше материала, вам просто нужно «ползать» по большему количеству сайтов. Как видите, все очень просто.

Ларри и Сергей раскрыли далеко не все технические подробности функционирования PageRank и Google: в аудитории вполне могли быть «шпионы» из других компаний, и ребятам, понятное дело, не хотелось, чтобы кто-либо воспользовался плодами их трудов.

Перейти на страницу:

Похожие книги

1001 совет по обустройству компьютера
1001 совет по обустройству компьютера

В книге собраны и обобщены советы по решению различных проблем, которые рано или поздно возникают при эксплуатации как экономичных нетбуков, так и современных настольных моделей. Все приведенные рецепты опробованы на практике и разбиты по темам: аппаратные средства персональных компьютеров, компьютерные сети и подключение к Интернету, установка, настройка и ремонт ОС Windows, работа в Интернете, защита от вирусов. Рассмотрены не только готовые решения внезапно возникающих проблем, но и ответы на многие вопросы, которые возникают еще до покупки компьютера. Приведен необходимый минимум технических сведений, позволяющий принять осознанное решение.Компакт-диск прилагается только к печатному изданию книги.

Юрий Всеволодович Ревич

Программирование, программы, базы данных / Интернет / Компьютерное «железо» / ОС и Сети / Программное обеспечение / Книги по IT