Если вы до сих пор не поняли, почему этот способ нечестный, представьте себе рождественский пудинг с монетами, распределенными в его толще в произвольном порядке. Если вы хотите узнать, сколько в нем всего монет, то отрезаете наугад любой кусочек (одну десятую пудинга), считаете монеты, умножаете на десять и получаете общее число монет. Это исследование, в котором вы выбрали образец, не зная точно, где и сколько монет находилось. Если бы вы просветили пудинг рентгеновскими лучами, то увидели бы, что в нем есть такие места, где монет больше просто из-за их случайного скопления. И при умении хорошо управляться ножом можно было бы вырезать нужный кусок пудинга с наибольшим количеством монет, чем было в первоначальном образце. Если вы помножите количество монет в этом куске на десять, то получится, будто бы в пудинге намного больше монет, чем на самом деле. Однако это типичное мошенничество. Монеты все равно распределены в пудинге по случайному принципу. Кусок с наибольшим количеством монет, который вы вырезали после просвечивания пудинга рентгеном, не является репрезентативным и не дает достоверной информации о том, что на самом деле находится внутри него.
И несмотря на это такой способ оптимистичного анализа кочует из одной бизнес-презентации в другую, из одной компании в другую, и так день ото дня, год от года. «Вы видите, что в целом не наблюдается положительной динамики, — может сказать некий исследователь. — Но интересно, что благодаря нашей рекламной компании объемы продаж дешевых ноутбуков в регионе Богнора значительно возросли». Если раньше нельзя было сказать, что центр продаж в Богноре как-то отличается от других магазинов компании и нет причины полагать, что и компьютеры там отличаются от остальных ваших продуктов, тогда это самый сомнительный и неверный аргумент, выбранный из всех.
В более общих терминах можно было бы сказать: если вы уже видели ваши результаты, вы не можете искать в них вашу гипотезу. Гипотеза должна появляться
Корни этой проблемы находятся так глубоко, что она стала предметом целого ряда нарочито издевательских работ, проведенных исследователями-методологами, стремящимися ткнуть носом слишком оптимистичных исследователей, которые не видят изъянов в том, что они делают, в их собственные ошибки. Тридцать лет назад, Ли и его коллеги опубликовали классическую поучительную работу на эту тему в журнале «Circulation».27
Они набрали 1073 пациента с коронарной болезнью сердца и назначили им в произвольном порядке препарат 1 и препарат 2. Оба лекарства были фикцией, так как ученые не проводили настоящее исследование, а всего лишь делали вид. Однако исследователи собирали действительные данные по этим пациентам, чтобы посмотреть, что можно обнаружить в случайном, беспорядочном наборе параметров.Они не были разочарованы. В целом, как и можно было ожидать, не было никакой разницы в динамике сердечно-сосудистых болезней у пациентов обеих групп, так как всем им давали одинаковые таблетки. Однако в выделенной подгруппе, состоящей из 397 пациентов (для них было характерно трехсосудистое поражение или ненормальное сокращение левого желудочка), показатель выживаемость среди тех, кого «лечили» препаратом 1, значительно отличался от того же показателя тех, кто принимал препарат 2, просто по случайному совпадению. Так что, оказывается, можно продемонстрировать эффективность препарата при помощи подгруппного анализа данных даже при ненастоящем лечении, так как и для первой, и для второй группы пациентов не делалось абсолютно ничего.