Читаем В одно касание. Бизнес-стратегии Google, Apple, Facebook, Amazon и других корпораций полностью

Каждый раз при создании запроса в Google поисковая система просматривает более 30 триллионов страниц в интернете и находит первые 10 результатов. В 92 % случаев пользователь выбирает результат на первой странице (то есть топ-10). Найти 10 лучших из 30 триллионов результатов действительно сложно – почти так же сложно, как случайно найти монетку, упавшую где-то в Нью-Йорке. Тем не менее Google успешно делает это за полсекунды. Но как?

На самом деле Google не посещает каждую страницу в интернете каждый раз, когда создается какой-то запрос. Google фактически хранит информацию о страницах в базах данных (таблицы информации, как в Excel) и использует алгоритмы, считывающие эти базы данных, чтобы решить, что показать пользователю. Алгоритмы – это просто ряд заданных правил. У людей может быть встроен «алгоритм» для создания бутерброда с маслом и сыром, в то время как на компьютерах Google есть алгоритмы для поиска страниц на основе поискового запроса.

Веб-паук

Алгоритм начинается с создания базы данных каждой страницы в интернете. Google использует программы, называемые «пауками», которые «ползут» по страницам, пока не найдут их все (или, по крайней мере, пока Google не решит, что этого достаточно). «Пауки» начинают с нескольких страниц и добавляют их в список страниц Google, называемый индексом. Затем они переходят по всем исходящим ссылкам на этих страницах и находят новый набор страниц, который добавляют в индекс. Далее они переходят по всем ссылкам уже на новых страницах и так далее, пока Google не найдет что-нибудь еще.

Это непрерывный процесс; Google всегда добавляет новые страницы в индекс или обновляет их, если они меняются. Индекс огромен, он весит более 100 млн ГБ. Для того чтобы поместить его на внешнем жестком диске объемом 1 ТБ, потребовалось бы 100 тысяч таких дисков, а если поставить их друг на друга, высота составит примерно 1,5 км.

Поиск слова

Поиск в Google работает таким образом: он принимает запрос (текст, введенный в строку поиска) и просматривает индекс, чтобы найти наиболее подходящие страницы. Как Google это делает? Самый простой способ – найти определенное ключевое слово, что-то вроде нажатия Ctrl+F или Cmd+F для поиска в гигантском документе Word. Именно так работали поисковые системы 1990-х годов: они искали запрос в своем индексе и отображали страницы с наибольшим количеством совпадений, атрибут, называющийся плотностью ключевых слов.

Как выяснилось, эту схему довольно легко обойти. Если ввести в поисковую строку «шоколадный батончик Snickers», то можно предположить, что snickers.com окажется в списке первых найденных страниц. Но если поисковая система просто считала количество повторяющихся слов «сникерс» на странице, кто-то мог бы создать «левую» страницу со словом «сникерс, сникерс, сникерс, сникерс» и т. д., и таким образом она бы оказалась в числе первых в результатах поиска. Очевидно, что такая страница окажется не очень полезной.

PageRank

Взамен алгоритма плотности ключевых слов основным нововведением Google стал алгоритм под названием PageRank, созданный Ларри Пейджем и Сергеем Брином в 1998 году в рамках работы над кандидатской диссертацией. Пейдж и Брин обратили внимание, что оценить приоритетность страницы можно, посмотрев на другие важные страницы, со ссылкой на нее. Это словно, находясь на вечеринке, узнать, что кто-то популярен, увидев этого человека, окруженного другими известными людьми. PageRank присваивает каждой странице оценку на основании других своих оценок, данных всем остальным страницам, которые дают ссылку на эту страницу. (Оценка тех страниц зависит от других страниц, которые дают на них ссылку, и т. д.; это рассчитывается с помощью линейной алгебры.)

Например, в случае создания новой страницы об Аврааме Линкольне, ее PageRank был бы очень низким. Но если бы какой-нибудь малоизвестный блог добавил ссылку на эту страницу, это повысило бы ее PageRank. PageRank больше заботится о качестве входящих ссылок, чем об их количестве, поэтому даже если десятки непопулярных блогов дадут ссылку на эту страницу, пользы будет мало. Но если бы газета New York Times (которая, скорее всего, имеет высокий PageRank) дала бы ссылку на нее, то ее PageRank взлетел бы.

Как только Google находит в своем индексе все страницы, в которых упоминается поисковый запрос, он ранжирует их по нескольким критериям, включая PageRank. У Google также есть много других критериев: он учитывает последнее обновление страницы, пропускает веб-сайты, похожие на спам (например, сайт «сникерс, сникерс, сникерс, сникерс», о котором писалось выше), учитывает местоположение (он может выдать сайт Национальной футбольной лиги, если пользователь ввел запрос «футбол» и при этом находится в США, и Английскую Премьер-лигу, если он ввел аналогичный запрос, находясь в Англии) и многое другое.

Надуть Google?

Перейти на страницу:

Похожие книги

Чистый кайф
Чистый кайф

— Вера? — за спиной раздается удивленный голос брата. — Рома?Рома, сидя напротив, смотрит то на своего лучшего друга, стоящего у нашего столика, то на меня с недоумением на лице.Мое сердце готово вот-вот выпрыгнуть из груди. Ладони вспотели.Ну почему? Почему все начинает рушиться именно тогда когда я хотела ему во всем признаться? Когда у меня есть что ему сказать?— Что значит "Вера"? Как это понимать? — Рома не отрывает от меня своего серьезного взгляда. В руке с силой сжимая салфетку. — То есть ты не Маша?— Ром я тебе сейчас все объясню, — выдавливаю с хрипом слова, так как горло, словно тиски сжимают, слезы наворачиваются от понимания, что это конец.Конец всему.В тексте есть: сильные чувства, бабник, упрямая героиня

Андрей Валерьевич Геласимов , Анна Мишина

Современные любовные романы / Современная русская и зарубежная проза / О бизнесе популярно / Романы / Финансы и бизнес
Гениальность на заказ. Легкий способ поиска нестандартных решений и идей
Гениальность на заказ. Легкий способ поиска нестандартных решений и идей

Когда дело касается генерации идей, мы часто сдерживаем сами себя. В каждом из нас есть внутренний цензор, который призван бесконечно шлифовать наши мысли, чтобы мы, не дай бог, не выглядели глупо и вообще вписывались в общество. Но что если мы сталкиваемся со сложными проблемами и традиционные решения заводят нас в тупик? Как выйти из ступора и найти нетривиальное решение?Марк Леви предлагает простую, но очень эффективную технику – фрирайтинг. Он использовал ее на протяжении многих лет для решения бизнес-задач, генерации идей, написания статей и книг.Ранее книга выходила в «Эксмо» под названием «Фрирайтинг. Современная техника поиска креативных решений».

Марк Леви

Деловая литература / Маркетинг, PR, реклама / О бизнесе популярно / Финансы и бизнес
С первой фразы: Как увлечь читателя, используя когнитивную психологию
С первой фразы: Как увлечь читателя, используя когнитивную психологию

Если вы собираетесь написать книгу, знайте: ваш безупречный стиль, красивые метафоры, яркие персонажи, достоверность событий могут и не сработать, если сама история будет неинтересной. История должна интриговать и держать внимание читателя до последней фразы, потому что наш мозг воспринимает такие истории как жизненный опыт, необходимый для выживания. По такому принципу построены все шедевры мировой литературы. Зная о реакциях мозга на тот или иной сюжетный ход – например, о его способности проецировать проблемы героев на своего обладателя и подсознательно искать лучший выход из сложной ситуации или о стремлении разбираться в чужих ошибках, чтобы совершать поменьше своих, – можно сконструировать бестселлер.Лиза Крон, базируясь на последних достижениях неврологии и когнитивной психологии, дает писателям очень важные советы и подсказки. В книге «С первой фразы», написанной с тонким юмором и глубоким знанием темы, вы также найдете примеры из романов, сценариев и рассказов. В каждой главе рассматривается один из аспектов работы мозга и даются советы по применению этого знания на практике.

Лиза Крон

Драматургия / Литературоведение / О бизнесе популярно / Финансы и бизнес