Самый интересный вариант бессмысленной корреляции Пирсон обнаружил еще в 1899 году. Он проявляется тогда, когда две гетерогенные выборки объединяют в одну. Пирсон, который, как и Гальтон, фанатично собирал данные, относящиеся к человеческому телу, получил обмеры 806 мужских и 340 женских черепов из парижских катакомб и подсчитал корреляции между длиной и шириной черепа. Когда подсчет производился только для мужских или только для женских черепов, корреляция была пренебрежимо мала — между длиной и шириной черепа практически не было связи. Но если обе группы объединяли, корреляция становилась равной 0,197, и обычно такое значение считалось значимым. Это объяснимо, потому что небольшая длина черепа сегодня считается индикатором того, что череп принадлежал женщине, и поэтому его ширина тоже окажется небольшой. Тем не менее Пирсон считал это статистическим артефактом.
Тот факт, что корреляция оказалась положительной, не имел биологического или «органического» значения; это был просто результат неправомерного объединения двух разных выборок.
Этот пример являет собой частный случай более общего явления, именуемого парадоксом Симпсона. В главе 6 мы обсудим, в каких случаях оправдано разделение массива данных на отдельные группы, и объясним, почему при их объединении могут возникать ложные корреляции.
Но давайте взглянем на то, что писал Пирсон: «Для тех, кто настаивает на взглядах на любые корреляции как на связь причины и следствия, тот факт, что значимую корреляцию между двумя совершенно не связанными признаками А и Б можно получить искусственным смешением двух близких выборок, должен восприниматься как шок». Стивен Стиглер комментирует это: «Я не могу удержаться от догадки, что сильнее всего был шокирован он сам». По сути, Пирсон бранил сам себя за склонность мыслить в терминах причинности.
Глядя на этот же самый пример через линзу причинности, нам остается только воскликнуть: надо же было упустить такую возможность! В идеальном мире подобные случаи могли бы подвигнуть талантливого ученого на размышления о причинах его шока и разработку научной дисциплины, предсказывающей появление ложных корреляций. По крайней мере, он попытался бы объяснить, когда данные целесообразно объединять, а когда нет. Но единственное наставление Пирсона последователям по этому поводу заключается в том, что «искусственное» (что бы это ни значило) объединение данных — это плохо. По иронии судьбы, используя наши каузальные очки, мы теперь знаем, что иногда именно анализ объединенных, а не разделенных данных дает верный ответ. Логика причинных умозаключений может подсказать нам, чему следует доверять. Я бы хотел, чтобы Пирсон был сейчас с нами и мог этому порадоваться!
Далеко не все ученики Пирсона ступали за ним след в след. Юл, который разошелся с Пирсоном по другим причинам, по этому поводу тоже был с ним не согласен. Вначале он был с ним в одном экстремистском лагере, утверждая, что корреляции расскажут нам все, что мы могли бы захотеть узнать посредством науки. Тем не менее он до некоторой степени изменил свое мнение, когда ему понадобилось объяснить наблюдения за условиями жизни беднейших жителей Лондона. В 1899 году он изучал вопрос, увеличивает ли «внешняя помощь» (материальная помощь, доставляемая на дом малоимущим, в отличие от жизни в богадельне) уровень бедности. Данные показывали, что кварталы, получающие больше «внешней помощи», отличались более высоким уровнем бедности, но Юл понял, что эта корреляция, скорее всего, была ложной; в этих кварталах жило больше пожилых людей, которые чаще всего бедны. Однако затем он сумел показать, что при сравнении кварталов с одинаковой пропорцией пожилых жителей корреляция сохраняется. Благодаря этому он осмелился заявить, что повышение уровня бедности действительно связано с «внешней помощью». Однако, выйдя из строя, чтобы сделать это утверждение, он поспешил вернуться в строй, написав в примечании: «Строго говоря, „по причине” следует читать как „связано с”». Целые поколения ученых после него следовали этому образцу. Они думали: «А происходит по причине Б», но говорили: «А связано с Б». Однако Пирсон с последователями, активно выступающие против причинности, и колеблющиеся недодиссиденты вроде Юла, опасающиеся разозлить лидера, подготовили сцену к выступлению нового игрока — ученого из-за океана, который бросил первый откровенный вызов научной культуре, избегающей понятия причинности.
Сьюалл Райт, морские свинки и путевые диаграммы