На самом деле все эти оживленные дискуссии вокруг данных «поперечного среза» напоминают мне неделю перед моей свадьбой, когда я стал частью некой совокупности данных. В то время я работал в Катманду (столице Непала) и занемог желудком в результате малопонятной болезни под названием «сине-зеленые водоросли» (это заболевание было выявлено лишь в двух местах в мире). Ученым удалось выделить патоген, который был причиной болезни, но они все еще не были уверены, что
собой представляет этот организм, поскольку на то время он еще не был известен науке. Когда я позвонил домой, чтобы рассказать невесте о моем диагнозе, я был вынужден признать, что это не самая приятная новость. Неизвестно, каким путем эта болезнь передается от человека к человеку и как ее лечить, к тому же она могла вызывать сильное утомление и прочие малоприятные побочные эффекты в период от нескольких дней до многих месяцев[36]. Учитывая, что до свадьбы оставалась всего неделя, это могло оказаться серьезной проблемой. Следовало ли мне держать себя в руках, когда я бродил по супермаркету? Пожалуй, да.Но затем я попытался сосредоточиться на позитивной информации. Во-первых, «сине-зеленые водоросли» не считались смертным приговором. И во-вторых, специалисты по тропическим болезням из Бангкока (далековато!) проявили особый интерес к моему случаю. Тебя не знобит?
(К тому же мне приходилось постоянно возвращать дискуссию к вопросу, волновавшему меня в тот момент больше всего, – к планированию предстоящей свадьбы: «Хватит о моей неизлечимой болезни. Поговорим лучше о цветах».)Свои последние часы в Катманду я провел, заполняя тридцатистраничную анкету, которая касалась буквально каждого аспекта моей жизни. Где я обедал и ужинал? Что именно я ел? Готовлю ли я дома, а если готовлю, то как? Приходилось ли мне плавать? Где и как часто? Все, у кого была обнаружена эта болезнь, заполняли точно такую же анкету. В конце концов патоген был выявлен: им оказались водные цианобактерии (Cyanobacteria). (Эти синие бактерии представляют собой единственный вид бактерий, получающих энергию из фотосинтеза; отсюда первоначальное описание заболевания как «сине-зеленые водоросли».) Оказалось, что эту болезнь можно лечить традиционными антибиотиками (но как ни странно, некоторые из новейших антибиотиков не действовали). Однако все эти открытия уже не могли мне помочь, потому что и без них я поправился достаточно быстро. Ко дню свадьбы моя пищеварительная система практически полностью восстановилась.
За каждым важным экспериментом кроются полезные данные, без которых он был бы невозможен. А за каждым неудачным… Одним словом, вам и так все понятно. Люди зачастую говорят о «лжи с помощью статистики». Я готов утверждать, что некоторые из самых вопиющих статистических ошибок обусловлены ложью с помощью данных;
статистический анализ выполнен правильно, но данные, на основе которых он делался, неправильны или неуместны. Ниже приведено несколько типичных примеров из категории «мусор на входе – мусор на выходе».Систематическая ошибка выбора
. Говорят, что Паулина Кейл, кинокритик и давний сотрудник еженедельника The New Yorker, после того как Ричард Никсон стал президентом США, сказала: «Никсон не мог победить. Я не знаю ни одного человека, который бы за него проголосовал». Очень сомневаюсь, что Паулина Кейл могла такое сказать, но однако это весьма показательный пример того, как ничтожная выборка (группа либерально настроенных приятелей некоего человека) способна создать ложное представление о гораздо большем числе людей (всех американских избирателях). Отсюда вопрос, который всегда нас должен интересовать: как была сформирована выборка (или выборки) для оценивания? Если каждому члену генеральной совокупности не предоставлены равные шансы на включение в выборку, у нас наверняка возникнут проблемы с результатами, полученными на ее основе. Одним из ритуалов, связанных с проведением президентских выборов в Соединенных Штатах, является неофициальный, выборочный опрос общественного мнения (так называемый соломенный опрос) в штате Айова. За год до президентских выборов, в августе, кандидаты от Республиканской партии собираются в городке Эймис штата Айова, чтобы набрать участников опроса. Каждый из желающих в нем участвовать должен заплатить 30 долларов. «Соломенный опрос» в штате Айова ничего не скажет нам наверняка о политическом будущем кандидатов от Республиканской партии. (Этот опрос точно предсказал лишь трех из последних пяти республиканских «номинантов».) В чем тут причина? Дело в том, что жители штата Айова, заплатившие 30 долларов, отличаются от других сторонников Республиканской партии в этом штате, не говоря уже о том, что ее сторонники в штате Айова отличаются от сторонников Республиканской партии в целом по стране.