Вполне возможно, что большинство статистических искажений в медицинском контексте возникает неосознанно – просто исследователи не знают о некоторых распространенных статистических ловушках. Характерная особенность клинических исследований, в частности, – проверка перспективного способа лечения на группе нездоровых людей с параллельным мониторингом их состояния для оценки воздействия медикамента. Если симптоматика спадает и пациенты идут на поправку, то положительная оценка препарата представляется вполне естественной.
Представим, например, что вы собрали большую группу людей, страдающих от боли в суставах, и попросили их сидеть спокойно, пока их будут жалить пчелы. Звучит абсурдно, но это реальный вид альтернативной терапии – апипунктура. Лечение укусами пчел в последнее время набирает популярность, отчасти благодаря той рекламе, которую ей делает Гвинет Пэлтроу, пропагандируя апипунктуру на своем сайте о стиле жизни Goop. Теперь представим, что боль в суставах у некоторых страдальцев чудесным образом проходит и они после сеансов начинают чувствовать себя в целом лучше. Можно ли сделать вывод, что апипунктура на самом деле является эффективным способом лечения боли в суставах? Скорее всего, нет. Никаких научных доказательств эффективности апипунктуры для лечения какого бы то ни было расстройства не существует. Более того, известно, что лечение пчелиным ядом часто вызывает отрицательные последствия, – зафиксирован по меньшей мере один летальный исход. Как же тогда объяснить положительные результаты нашего гипотетического исследования? Что вызывает улучшение состояния пациентов?
Острота таких расстройств, как боль в суставах, с течением времени колеблется. Вполне вероятно, что на участие в испытаниях – особенно в таких экстремальных и нестандартных, как апипунктура, – соглашаются те, кто находится в самом тяжелом положении и отчаянно нуждается хоть в каком-то облегчении своего недуга. Если сеанс лечения проводится на фоне острой боли, то через некоторое время они весьма вероятно почувствуют себя лучше – вне зависимости от результативности лечения. Это явление называют регрессией к среднему значению. Оно проявляется во многих исследованиях, в которых присутствует элемент случайного разброса результатов.
Чтобы лучше понять, как работает регрессия к среднему, рассмотрим результаты экзамена. Возьмем крайний случай, когда студентам предлагается ответить на 50 вопросов с ответами «да» или «нет» по предмету, о котором они ничего не знают. Если студенты будут выбирать ответы исключительно наугад, результаты теста будут варьироваться от нуля до 50, но тех, кто угадает почти все правильно, будет совсем немного – как и тех, кто не угадает почти ничего. Из распределения баллов, приведенного на рис. 20, видно, что средний балл большинства экзаменуемых будет ближе к среднему арифметическому значению 25. Если проанализировать баллы тех, кто попал в 10 % лучших, то они по определению будут значительно выше, чем в среднем по всей группе. Но покажут ли они результаты значительно выше среднего, если их протестировать повторно, со свежими вопросами? Конечно, нет. Мы будем вновь ожидать, что их оценки равномерно распределятся вокруг среднего балла 25. То же самое будет верно и при перепроверке нижних 10 %. Набравшие экстремально высокие и экстремально низкие баллы в первом тесте во втором, как правило, вернутся к среднему показателю.
Рис. 20. Распределение баллов при прохождении теста из 50 вопросов с многовариантными ответами «да/нет». При повторном тестировании тех, кто набрал наивысшие 10 % баллов (заштрихованная область справа), их средний балл совпадает со средним общим баллом. То же самое относится к низшим 10 % (заштрихованная область слева). Группы, получившие как высшие, так и низшие баллы, регрессировали в сторону среднего значения