Читаем Все лгут. Поисковики, Big Data и Интернет знают о вас всё полностью

Из примерно тысячи лошадей, выставленных на аукционе Окала, десяток справился со всеми тестами Седера. Он полностью игнорировал родословную – за исключением того, как это будет влиять на цену коня при продаже. «Родословная может сказать нам, что у лошади очень маленький шанс быть замечательной, – говорит он. – Но если я вижу, что конь великолепен, какая мне разница, у кого он родился?»

Однажды вечером Джефф пригласил меня в свой номер в отеле «Хилтон» в Окале. Там он рассказал мне о своих детстве, семье и карьере. Показал фотографии жены, дочери и сына. Сказал, что был одним из трех еврейских учеников, перешедших в старшие классы в школе в Филадельфии, и что по окончании школы его рост был 145 см (позже, в колледже, он вырос до 173 см). Рассказал о своей любимой лошади Pinky Pizwaanski. Седер купил и назвал ее в честь одного гея-жокея. Он чувствовал, что Pinky-конь всегда старался изо всех сил, даже если и не был самым успешным.

И наконец, Седер показал мне файл, в котором содержались все данные о коне № 85, – файл, ставший наиболее успешным прогнозом в его карьере. Он разглашал свой секрет? Возможно. Но Джефф сказал, что его это не волнует. Важнее сохранения секрета для него было доказать свою правоту, показать всему миру, что эти 20 лет копания во внутренностях, выгребания навоза и таскания с собой аппарата УЗИ принесли наконец результат.

Вот некоторые сведения о лошади № 85.


№ 85 (позже Американский Фараон), однолетка


Здесь четко и ясно видно, почему Седер и его команда так одержимо рекомендовали № 85. Процентиль его левого желудочка составлял 99,61!

Не только левый желудочек, но и все остальные важные органы, включая сердце и селезенку, были исключительно крупными. Вообще говоря, Седер обнаружил: когда дело касается скачек, чем больше левый желудочек, тем лучше. Но его размер может быть и признаком болезни – если другие органы невелики. У Американского Фараона все наиболее важные органы были больше среднего размера, а левый желудочек был просто огромен. Данные кричали о том, что № 85 уникален, таких лошадей была одна на 100 тысяч или даже на миллион.


Какую информацию ученые могут извлечь из проекта Седера?

Первое и, пожалуй, самое главное. Если вы собираетесь попробовать использовать новые данные для революционного улучшения ситуации, лучше сперва задаться вопросом: где не срабатывают старые методы? Одержимость агентов-лошадников родословными оставила Седеру достаточно места для маневра. То же самое можно сказать и о победе Google над поисковыми системами, одержимыми подсчетом слов.

Одним из недостатков в попытке Google предсказать приближение эпидемии гриппа{56}, используя данные поисковых запросов, было то, что вы можете сделать это очень хорошо и сами – просто используя данные прошлой недели и добавив сезонные корректировки. До сих пор ведутся споры о том, насколько сведения, полученные на основании поисковых запросов, лучше простой, но мощной модели. На мой взгляд, поиск в Google практичнее для измерения состояний, для которых существующие данные не столь показательны. Поэтому Google STD в долгосрочной перспективе может оказаться более полезным, чем Google Flu.

Второй урок заключается в том, что при попытке сделать прогноз не нужно всерьез задаваться вопросом, почему ваша модель работает. Седер не может полностью объяснить, почему левый желудочек имеет столь важное значение при прогнозировании успеха лошади. Он также не в состоянии точно сказать, почему на успех влияет именно величина селезенки. Возможно, когда-нибудь лошадиные кардиологи и гематологи и дадут ответ на эти вопросы. Но сейчас это не важно. Седер занимается прогнозированием успеха, а не его объяснением. То есть вы просто должны знать, что это работает, и не пытаться понять почему.

Например, Walmart использует данные о продажах во всех своих магазинах, чтобы знать, какие продукты следует пока отложить. До урагана Фрэнсис – разрушительного шторма, обрушившегося на юго-восток США в 2004 году, – компания Walmart подозревала (и совершенно справедливо), что, когда город переживет удар стихии, покупательские привычки людей могут измениться. Эксперты компании изучили данные по продажам после предыдущих ураганов, стараясь понять, что именно люди, возможно, захотят купить. Какой товар оказался самым популярным? Клубничное печенье. За несколько дней до урагана этот продукт продается в семь раз быстрее, чем обычно.

На основе проведенного анализа в супермаркеты вдоль 95-го шоссе (по пути урагана) поехали грузовики с клубничным печеньем «Поп-Тартс»{57}. И действительно: в эти дни оно продавалось особенно хорошо.

Почему печенье «Поп-Тартс»? Наверное, потому, что оно не требует охлаждения или приготовления.

Почему клубничное? Понятия не имею. Но когда проносятся ураганы, люди сметают клубничное печенье.

Перейти на страницу:

Похожие книги

Самоучитель UML
Самоучитель UML

Самоучитель UMLПервое издание.В книге рассматриваются основы UML – унифицированного языка моделирования для описания, визуализации и документирования объектно-ориентированных систем и бизнес-процессов в ходе разработки программных приложений. Подробно описываются базовые понятия UML, необходимые для построения объектно-ориентированной модели системы с использованием графической нотации. Изложение сопровождается примерами разработки отдельных диаграмм, которые необходимы для представления информационной модели системы. Цель книги – помочь программистам освоить новую методологию разработки корпоративных программных приложений для последующего применения полученных знаний с использованием соответствующих CASE-инструментов.

Александр Васильевич Леоненков , Александр Леоненков

Зарубежная компьютерная, околокомпьютерная литература / Программирование / Прочая компьютерная литература / Книги по IT
Основы информатики: Учебник для вузов
Основы информатики: Учебник для вузов

Учебник состоит из двух разделов: теоретического и практического. В теоретической части учебника изложены основы современной информатики как комплексной научно-технической дисциплины, включающей изучение структуры и общих свойств информации и информационных процессов, общих принципов построения вычислительных устройств, рассмотрены вопросы организации и функционирования информационно-вычислительных сетей, компьютерной безопасности, представлены ключевые понятия алгоритмизации и программирования, баз данных и СУБД. Для контроля полученных теоретических знаний предлагаются вопросы для самопроверки и тесты. Практическая часть освещает алгоритмы основных действий при работе с текстовым процессором Microsoft Word, табличным редактором Microsoft Excel, программой для создания презентаций Microsoft Power Point, программами-архиваторами и антивирусными программами. В качестве закрепления пройденного практического курса в конце каждого раздела предлагается выполнить самостоятельную работу.

Вадим Васильевич Лысенко , Лариса Александровна Малинина , Максим Анатольевич Беляев

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Справочник по параметрам BIOS
Справочник по параметрам BIOS

В справочнике в алфавитном порядке приведено описание большинства параметров современных BIOS. В краткой форме описаны большинство настроек BIOS, даны рекомендуемые значения для различных конфигураций компьютеров. Также рассказано, что представляет собой BIOS, какие типы BIOS существуют, как получить доступ к BIOS и обновлять ее.Кроме того, вы научитесь использовать различные функции BIOS, узнаете, как оптимизировать их с целью улучшения производительности и надежности системы.Для более глубокого понимания работы BIOS и детального рассмотрения ее функций рекомендуем обратиться к книге «Оптимизация BIOS. Полное руководство по всем параметрам BIOS и их настройкам» А. Вонга.Книга предназначена для всех пользователей компьютера – как начинающих, которые хотят научиться правильно и грамотно настроить свою машину, используя возможности BIOS, так и профессионалов, для которых книга окажется полезным справочником по всему многообразию настроек BIOS. Перевод: А. Осипов

Адриан Вонг

Прочая компьютерная литература / Книги по IT