А как теперь, когда у нас есть большие данные, обстоит дело с корреляцией и причинностью? Крис Андерсон, бывший главный редактор журнала Wired, посвященного компьютерным технологиям, полагает, что об этом можно не беспокоиться. Объяснение конкретных соотношений не имеет значения, писал он в 2008 году в своей влиятельной статье «Конец теории» (The End of Theory)[279]
. «Основополагающая философия Google состоит в том, что мы не знаем, почему именно одна страница лучше другой: если статистика… говорит, что она лучше, этого достаточно». Тот факт, что корреляция не равнозначна причинности, как мы видели на примере аистов и младенцев, по мнению Андерсона, уже не играет роли. «Петабайты позволяют нам сказать: “Достаточно и корреляции”».Это заявление чрезвычайно наивно. Корреляции по-прежнему недостаточно даже в эпоху больших данных. Взять хотя бы алгоритм Google Flu Trends («Тенденции гриппа»), запущенный с большой помпой в 2008 году[280]
. Компания Google обещала, что по поисковым запросам этот алгоритм сможет предсказывать, когда, где и сколько будет случаев заболевания гриппом. Идея состояла в следующем: если человек заболевает, он ищет в Google симптомы.Открывались великолепные перспективы. Генеральный директор Google утверждал, что теперь можно будет спасать десятки тысяч жизней в год[281]
. И на первых порах казалось, что он прав. В течение двух или трех лет модель довольно точно предсказывала, когда и где ожидать вспышек гриппа. Но в последующие годы алгоритм стал постоянно ошибаться. Качество прогнозов стало совершенно неприемлемым в 2013 году, когда предсказанный им уровень заболеваемости гриппом оказался более чем в два раза выше реального[282].Что же пошло не так? Из 50 миллионов поисковых запросов создатели алгоритма выбрали 45 терминов, которые лучше всего коррелировали с развитием вспышки гриппа. Затем они стали отслеживать поисковые запросы с этими терминами. Звучит вполне логично, но, как и в случае с меньшими наборами данных, нас подстерегает проблема мармеладных драже. Если достаточно долго искать, какая-нибудь корреляция всегда найдется.
Хуже того, большие данные делают эту проблему еще большей помехой, потому что чем больше у нас переменных, тем больше значимых корреляций мы находим. Чисто случайно. Например, исследователи нашли сильную корреляцию между ключевой фразой «школьный баскетбол» и распространением гриппа[283]
. Они удалили такого рода ложные корреляции из модели вручную. Но принять такое решение не всегда просто. Как определить, совпадение это или нет? Считать ли корреляцию с ключевыми словами «носовые платки» совпадением, потому что сейчас зима, или же это признак вспышки гриппа?Другой недостаток этого алгоритма состоял в том, что его авторы не обращали внимания на важные изменения в конструкции собственной поисковой системы Google. Начиная с 2012 года веб-сайт при поиске по таким словам, как «кашель» или «жар», показывал возможные диагнозы. Одним из этих диагнозов был грипп. Это побуждало пользователей искать информацию о болезни, в результате чего алгоритм Google Flu переоценивал масштабы вспышки гриппа.
Выше мы видели, что кредитные бюро тоже делают предсказания, как Google Flu Trends. В этих предсказаниях тоже скрыты ложные корреляции, и серьезные изменения могут нарушить работу таких систем. Например, узнав, что в заявках нужно использовать определенные слова, люди могут обманывать систему, лишая соответствующие корреляции всякого смысла.
Но представим себе, что в будущем нам уже не нужно будет беспокоиться об этих двух ловушках. Вообразим, что мы научились распознавать ложные корреляции и отслеживать изменения в режиме реального времени. У нас все равно останется одна неразрешимая проблема, поскольку то, как мы используем рейтинги, влияет на то, какими они получаются.
Числа, которые должны были отражать реальность, заменили ее
– Я не вкладываюсь в образование, потому что вы все равно не возьмете меня на работу.
– Я не взял вас на работу, потому что вы не вкладывались в образование.
Этот обмен репликами произошел в 2003 году в американском штате Виргиния[284]
. Таким вполне мог быть пылкий разговор между работодателем и соискателем. Возможно, кандидату отказали из-за цвета его кожи. А может быть, работодатель мельком взглянул на его резюме и решил: недостаточно образован.Но соискатель не был чернокожим – он был «фиолетовым». Собеседники были не работодателем и потенциальным работником, а студентами. Они участвовали в эксперименте гарвардского профессора Роланда Фрайера и его коллег. Их исследование показало, как быстро в мире, основанном на равенстве, все начинает идти вкривь и вкось, если обращать внимание только на числа.