Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

Вместо того чтобы полагаться на простые корреляции, эксперты пытались интуитивно нащупать подходящие закономерности, исходя из гипотез в рамках определенных теорий — абстрактных представлений о принципах работы чего-либо. Затем эксперты получали соответствующие данные и проводили корреляционный анализ для проверки этих закономерностей. Если они оказывались ошибочными, эксперты, как правило, упрямо пробовали еще раз (на случай, если данные были собраны неправильно), пока, наконец, не признавали, что исходная гипотеза (или даже теория, на которой она основана) требует доработки. Знания совершенствовались путем проб и ошибок, связанных с гипотезами. Процесс был очень медленным, поскольку личные и общие предубеждения мешали объективно оценить разработанные гипотезы, их применение и выбранные в итоге закономерности. И все это для того, чтобы в большинстве случаев в итоге узнать, что мы ошибались. Это был трудоемкий процесс, зато он годился для работы с малыми данными.

В эпоху больших данных невозможно определить переменные, которые следует рассматривать, лишь на основе личных предположений. Наборы данных слишком велики, а рассматриваемые области, пожалуй, слишком сложны. К счастью, многие ограничения, которые вынуждали нас применять подход на основе гипотез, уже не столь существенны. Теперь у нас настолько много данных и вычислительной мощности, что не приходится вручную выбирать одну закономерность или небольшую горстку наиболее вероятных, а затем изучать их по отдельности. Теперь сложные вычислительные процессы сами выбирают лучшую закономерность, как это было в службе Flu Trends, которая легко и точно обнаруживала лучшие условия поиска из 50 миллионов самых популярных запросов, протестировав 450 миллионов математических моделей.

Для того чтобы понимать окружающий мир, теперь не обязательно изучать рабочие гипотезы о том или ином явлении. А значит, не нужно развивать гипотезу о возможных поисковых запросах людей, чтобы узнать время и территорию распространения гриппа. Не нужно вдаваться в подробности того, как авиакомпании назначают цены на билеты. Не нужно заботиться о кулинарных вкусах покупателей Walmart. Вместо этого достаточно провести корреляционный анализ на основе больших данных, чтобы узнать, какие поисковые запросы наиболее характерны для гриппа, грядет ли рост цен на авиабилеты или чем обеспокоенные домоседы запасаются на время бури. Вместо подверженного ошибкам подхода на основе гипотез благодаря корреляциям между большими данными у нас есть подход, построенный на данных. И он может быть менее предвзятым, более точным и наверняка менее трудоемким.

В основе больших данных лежат прогнозы на основе корреляций. Они используются все чаще, и мы порой недооцениваем их новизну. Практическое применение прогнозов со временем будет только расширяться.

Для прогнозирования поведения отдельных лиц существует кредитная оценка заемщика. Компания Fair Isaac Company, известная как FICO, ввела это понятие в 1950-х годах. В 2011-м FICO ввела еще одно понятие — «оценка приверженности лечению». Она анализирует множество переменных, в том числе тех, которые, казалось бы, не имеют отношения к делу (например, как долго люди не меняли место жительства или работы, состоят ли они в браке и имеют ли собственный автомобиль), для того чтобы определить вероятность того, примет ли пациент назначенное лекарство. Оценка помогла бы медицинским сотрудникам экономить средства: они знали бы, кому следует делать напоминания. Между владением автомобилем и приемом антибиотиков нет причинно-следственных связей. Это чистой воды корреляция. Но она вдохновила исполнительного директора компании FICO гордо заявить на встрече инвесторов в 2011 году: «Мы знаем, что вы собираетесь делать завтра».[58]

Крупное кредитное бюро Experian предлагает продукт Income Insight, который прогнозирует уровень доходов людей на основе их кредитной истории. Проанализировав огромную базу данных кредитных историй в сравнении с анонимными данными о налогах, полученными из налоговой службы Америки, эта программа подготовила соответствующую оценку. В то время как проверка доходов определенного лица стоит около 10 долларов, Experian продает свою оценку менее чем за 1 доллар. Таким образом, в некоторых случаях использование закономерностей экономически выгоднее, чем волокита с получением нужных данных. Тем временем другое кредитное бюро, Equifax, продает «индекс платежеспособности» и «индекс дискреционных расходов», которые сулят прогноз благосостояния отдельных лиц.[59]

Перейти на страницу:

Похожие книги

Ведьмак. История франшизы. От фэнтези до культовой игровой саги
Ведьмак. История франшизы. От фэнтези до культовой игровой саги

С момента выхода первой части на ПК серия игр «Ведьмак» стала настоящим международным явлением. По мнению многих игроков, CD Projekt RED дерзко потеснила более авторитетные студии вроде BioWare или Obsidian Entertainment. Да, «Ведьмак» совершил невозможное: эстетика, лор, саундтрек и отсылки к восточноевропейскому фольклору нашли большой отклик в сердцах даже западных игроков, а Геральт из Ривии приобрел невероятную популярность по всему миру.Эта книга – история триумфа CD Projekt и «Ведьмака», основанная на статьях, документах и интервью, некоторые из которых существуют только на польском языке, а часть и вовсе не публиковалась ранее.В формате PDF A4 сохранен издательский макет книги.

Рафаэль Люка

Хобби и ремесла / Зарубежная компьютерная, околокомпьютерная литература / Зарубежная прикладная литература / Дом и досуг
Внутреннее устройство Microsoft Windows (гл. 1-4)
Внутреннее устройство Microsoft Windows (гл. 1-4)

Книга посвящена внутреннему устройству и алгоритмам работы основных компонентов операционной системы Microsoft Windows — Windows Server 2003, Windows XP и Windows 2000 — и файловой системы NTFS. Детально рассмотрены системные механизмы: диспетчеризация ловушек и прерываний, DPC, APC, LPC, RPC, синхронизация, системные рабочие потоки, глобальные флаги и др. Также описываются все этапы загрузки операционной системы и завершения ее работы. B четвертом издании книги больше внимания уделяется глубокому анализу и устранению проблем, из-за которых происходит крах операционной системы или из-за которых ее не удается загрузить. Кроме того, рассматриваются детали реализации поддержки аппаратных платформ AMD x64 и Intel IA64. Книга состоит из 14 глав, словаря терминов и предметного указателя. Книга предназначена системным администраторам, разработчикам серьезных приложений и всем, кто хочет понять, как устроена операционная система Windows.Названия всех команд, диалоговых окон и других интерфейсных элементов операционной системы приведены как на английском языке, так и на русском.Версия Fb2 редакции — 1.5. Об ошибках просьба сообщать по адресу — general2008@ukr.net.

Дэвид Соломон , Марк Руссинович

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
С компьютером на ты. Самое необходимое
С компьютером на ты. Самое необходимое

Рассказывается о работе в операционной системе Windows (на примере версий XP и 7), текстовом редакторе Word 2010 и других приложениях, необходимых каждому пользователю: архиваторах, антивирусах и программах для просмотра видео и прослушивания музыки (Winamp, QuickTime Pro). Большое внимание уделяется работе в Интернете. Рассказывается о программах для просмотра Web-страниц, об электронной почте, а также о различных полезных приложениях для работы в сети — менеджерах закачек файлов, ICQ, Windows Live Messenger, MSN и многих других. Во втором издании рассмотрена новая ОС — Windows 7, а также последние версии приложений для пользователей.Для начинающих пользователей ПК.

Андрей Александрович Егоров , Андрей Егоров

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT