Читаем Все лгут. Поисковики, Big Data и Интернет знают о вас всё полностью

Сейчас я не хочу спорить, но, основываясь на этом анализе, могу сказать: отслеживание «Slutload» или игры «паук» является лучшим способом прогнозирования уровня безработицы. Со временем могут появляться некоторые отклонения: безработные могут искать, например, «rawtube» – другой порносайт. Ни одно из этих условий само по себе не связано с увеличением числа безработных. Но в целом я обнаружил, что смесь подобных поисковых запросов позволяет адекватно оценивать уровень безработицы и является частью самой лучшей модели прогнозирования этого явления.

Данный пример иллюстрирует могущество больших данных: возможность переосмыслить то, что следует квалифицировать как данные. Часто наиболее ценным в больших данных является не их размер, а тот факт, что они могут предложить вам новые виды информации для исследования, которые никогда раньше не собирались.

До появления Google существовали сведения об определенных видах деятельности (например, о продаже билетов в кино), которые могут дать подсказки о том, каким количеством свободного времени располагают люди. Но возможность узнать, сколько из них раскладывают пасьянс или смотрят порно – это нечто новое, и это очень мощный ресурс. В данном случае эта информация способна помочь нам быстрее оценить состояние экономики – по крайней мере, до тех пор, пока правительство не научится быстрее проводить опросы и обобщать полученные данные.


Жизнь в кампусе Google в Маунтин-Вью, Калифорния, существенно отличается от той, которая кипит в штаб-квартире Goldman Sachs на Манхеттене. В 9 часов утра офисы Google почти пусты. Если в поле зрения оказывается кто-либо из работников, скорее всего, он пришел, чтобы съесть бесплатный завтрак – бананово-черничные блинчики, омлет и огуречную воду. Некоторых сотрудников может просто не быть в городе – они присутствуют на выездном заседании в Боулдере, в Лас-Вегасе или, возможно, принимают участие в бесплатном лыжном походе к озеру Тахо. Примерно в обеденное время волейбольная площадка и футбольное поле наполнятся людьми. Лучший буррито, который я когда-либо ел, был в мексиканском ресторане Google.

Как одна из крупнейших и наиболее конкурентоспособных технологических компаний в мире может быть настолько расслабленной и щедрой? Google собирает урожай больших данных так, как даже не снилось ни одной другой компании в мире. Это позволяет ей создать автоматизированный денежный поток. А также стать главным героем данной книги, ведь поисковые запросы в Google на сегодняшний день являются доминирующим источником больших данных. Но важно помнить: успех Google основан на сборе нового типа данных.

Если вы живете достаточно давно и пользовались интернетом еще в ХХ веке, то можете вспомнить различные существовавшие тогда поисковые системы – в частности, MetaCrawler, Lycos, AltaVista. И вы, наверное, помните, что эти поисковые системы были в лучшем случае не особо надежными. Иногда, если вам везло, им удавалось найти то, что вы хотели. Но нередко они не справлялись с этой задачей. Если в конце 1990-х годов вы вводили в самых популярных поисковиках запрос «Билл Клинтон», на вершине списка результатов мог оказаться случайный сайт с заголовком «Bill Clinton Sucks» («Билл Клинтон сосет») или сайт с неприличными анекдотами о Клинтоне. Вряд ли это можно считать самой актуальной информацией о тогдашнем президенте США.

В 1998 году появился Google, и результаты его поиска были несомненно лучше, чем у любого из его конкурентов. Если вы в 1998 году вводили запрос «Билл Клинтон» в Google, вам выдавался его веб-сайт, адрес электронной почты Белого дома и лучшие биографии этого человека, которые тогда существовали в интернете. Работа Google казалась волшебством.

Что же изменили основатели компании Google Сергей Брин и Ларри Пейдж?

Другие поисковые системы находили для своих пользователей веб-сайты, в которых чаще всего фигурируют фразы, введенные в поисковый запрос. Если вы искали информацию о Билле Клинтоне, эти поисковики нашли бы в сети сайты с наибольшим числом упоминаний Билла Клинтона. Существует множество причин, по которым эта рейтинговая система была несовершенной, и одной из них было то, что ее легко обмануть. Сайт с анекдотами, на странице которого будет написано «Билл Клинтон Билл Клинтон Билл Клинтон Билл Клинтон Билл Клинтон», в выдаче будет выше, чем официальный сайт Белого дома[10].

Брин и Пейдж нашли способ фиксировать новый тип информации, который был гораздо ценнее, чем простой подсчет слов. Нередко в публикуемых на сайтах статьях даются ссылки на другие ресурсы, которые могут быть полезными для понимания обсуждаемого вопроса. Например, если в статье в электронной версии «Нью-Йорк Таймс» упоминается Билл Клинтон, то читатели, кликнув на его имя, перейдут на официальный сайт Белого дома.

Перейти на страницу:

Похожие книги

Самоучитель UML
Самоучитель UML

Самоучитель UMLПервое издание.В книге рассматриваются основы UML – унифицированного языка моделирования для описания, визуализации и документирования объектно-ориентированных систем и бизнес-процессов в ходе разработки программных приложений. Подробно описываются базовые понятия UML, необходимые для построения объектно-ориентированной модели системы с использованием графической нотации. Изложение сопровождается примерами разработки отдельных диаграмм, которые необходимы для представления информационной модели системы. Цель книги – помочь программистам освоить новую методологию разработки корпоративных программных приложений для последующего применения полученных знаний с использованием соответствующих CASE-инструментов.

Александр Васильевич Леоненков , Александр Леоненков

Зарубежная компьютерная, околокомпьютерная литература / Программирование / Прочая компьютерная литература / Книги по IT
Основы информатики: Учебник для вузов
Основы информатики: Учебник для вузов

Учебник состоит из двух разделов: теоретического и практического. В теоретической части учебника изложены основы современной информатики как комплексной научно-технической дисциплины, включающей изучение структуры и общих свойств информации и информационных процессов, общих принципов построения вычислительных устройств, рассмотрены вопросы организации и функционирования информационно-вычислительных сетей, компьютерной безопасности, представлены ключевые понятия алгоритмизации и программирования, баз данных и СУБД. Для контроля полученных теоретических знаний предлагаются вопросы для самопроверки и тесты. Практическая часть освещает алгоритмы основных действий при работе с текстовым процессором Microsoft Word, табличным редактором Microsoft Excel, программой для создания презентаций Microsoft Power Point, программами-архиваторами и антивирусными программами. В качестве закрепления пройденного практического курса в конце каждого раздела предлагается выполнить самостоятельную работу.

Вадим Васильевич Лысенко , Лариса Александровна Малинина , Максим Анатольевич Беляев

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Справочник по параметрам BIOS
Справочник по параметрам BIOS

В справочнике в алфавитном порядке приведено описание большинства параметров современных BIOS. В краткой форме описаны большинство настроек BIOS, даны рекомендуемые значения для различных конфигураций компьютеров. Также рассказано, что представляет собой BIOS, какие типы BIOS существуют, как получить доступ к BIOS и обновлять ее.Кроме того, вы научитесь использовать различные функции BIOS, узнаете, как оптимизировать их с целью улучшения производительности и надежности системы.Для более глубокого понимания работы BIOS и детального рассмотрения ее функций рекомендуем обратиться к книге «Оптимизация BIOS. Полное руководство по всем параметрам BIOS и их настройкам» А. Вонга.Книга предназначена для всех пользователей компьютера – как начинающих, которые хотят научиться правильно и грамотно настроить свою машину, используя возможности BIOS, так и профессионалов, для которых книга окажется полезным справочником по всему многообразию настроек BIOS. Перевод: А. Осипов

Адриан Вонг

Прочая компьютерная литература / Книги по IT