Например, люди постоянно путают корреляцию с причиной и следствием. Мы проводим ложные корреляции, чтобы разобраться во влиянии двух переменных друг на друга. Чем более детализированные данные мы используем, тем больше паттернов можем заметить – пусть даже совпадения абсолютно случайны.
Чтобы с юмором отразить это явление, Тайлер Виген, студент Гарвардской школы права, использовал большие общедоступные наборы данных, чтобы продемонстрировать некоторые нелепые случайные совпадения. Кто, например, знал, что количество разводов в штате Мэн коррелирует с потреблением маргарина на душу населения в 99 % случаев? Этого достаточно, чтобы заставить любого состоящего в браке жителя штата задуматься о переходе на сливочное масло!
В другом примере Виген обнаружил 99 %‑ую корреляцию между общим доходом, получаемым залами аркадных автоматов, и количеством докторских степеней по компьютерным наукам, присужденных в Соединённых Штатах. Заманчиво сделать вывод, что аркады влияют на молодых игроков, побуждая их получать высшее образование в связанной области. Но это как раз работа нашего инстинкта поиска информации, который сбивает нас с истинного пути.
Даже самые умные учёные, врачи и исследователи попадают в ловушку ложных корреляций. Вспомните, когда вы в последний раз ходили на осмотр к своему врачу. Вы наверняка слышали о липопротеинах высокой плотности (ЛПВП), или «хорошем холестерине», и липопротеинах низкой плотности (ЛПНП), или «плохом холестерине». Поскольку уровень ЛПВП связан с более низким показателем сердечно-сосудистых заболеваний, кажется логичным, что препараты, повышающие уровень холестерина ЛПВП, приведут к положительным результатам. Однако исследователям из Национального института сердца, лёгких и крови, которые в рамках эксперимента вводили пациентам ниацин для повышения уровня ЛПВП, пришлось прервать эксперимент, поскольку риск сердечных приступов никак не снижался. Оказывается, ЛПВП – это побочный продукт здорового сердца, а не причина его здоровья.
Как раз таких заблуждений все мы должны остерегаться. Без тщательной интерпретации мы легко становимся жертвами ненужных данных, применяя «подтверждённые» решения, которые только усугубляют наше заблуждение. В конце концов, ни одному женатому жителю штата Мэн не нужен рецепт врача на сливочное масло!
Плохое применение данных
Когда дело доходит до применения данных, мы должны контролировать все стадии
Одной из наиболее вопиющих иллюстраций того, что наш инстинкт сбора данных работает не так, как нам надо, стал спор об использовании масок во время пандемии COVID-19. Ковид активировал несколько наших инстинктов сразу: все мы хотели принадлежать к группе, но боялись окружающих. Классический пример плохого сбора данных: одна группа приводила в качестве доказательства источник информации, который подразумевал, что маски – лишняя мера предосторожности. Она игнорировала научные данные, которые говорили, что ношение масок играет важную роль в прекращении распространения вируса. Эта группа иногда даже утверждала, что маски
Вместо того чтобы чётко определить цель сбора и интерпретации данных по поводу ношения масок с самого начала (т. е. обеспечение здоровья для всех), мы позволили нашим инстинктам разогнать нас по двум разным углам ринга. В случае, когда мы могли бы объединиться для борьбы с общим внешним врагом (COVID-19), наш инстинкт сбора данных, равнодушный к правде, взял бразды правления в свои руки.
Захваченные инстинктом принадлежности и страхом перед чужаками, мы нашли данные, оправдывающие веру нашей группы, и одновременно демонизировали убеждения другого племени. Мы не задумывались о том, что группы могли бы объединиться для достижения общей цели. Когда данные применяются плохо, никто не выигрывает. Если с самого начала есть чётко поставленный вопрос и задача, они не дают нам блуждать по путям некачественного сбора, интерпретации и применения данных.