Если вы честный исследователь, вы будете использовать статистические тесты специально для выявления истинных полезных свойств лекарства, которое вы проверяете. Вы будете пытаться отличить эти реальные изменения от обычных случайных изменений в фоновых данных, которые вы увидите в результатах ваших пациентов при проведении различных тестов. Больше чем что бы то ни было вы захотите избежать получения ложноположительных результатов.
Традиционная пропорция статистической значимости совпадений 1 к 20. Грубо говоря, объясняя эту формулу простыми словами, если вы проведете одно и то же исследование много раз, используя те же методы, с теми же участниками из той же группы населения, то вы получите такие же положительные результаты, которые наблюдались в одном из 20 исследований, просто по случайности, даже если лекарство не оказывало совсем никакого полезного эффекта. Если вы будете зачерпывать двумя стаканчиками из одной бадьи с красными и белыми шариками, то и дело, чисто случайно, в одном стаканчике будет оказываться необычно мало красных шариков, а в другом — необычно много красных шариков. То же самое происходит и при измерении параметров здоровья пациентов: будут встречаться некоторые случайные вариации, и иногда все будет выглядеть так, как будто одно лекарство лучше другого, с точки зрения улучшения параметров организма, но на самом деле такое улучшение будет случайным. Статистические тесты разработаны для того, чтобы не дать этим самым случайным колебаниям параметров организма сбить нас с толку.
Поэтому сейчас давайте представим, что вы проводите исследование, при котором измеряете 10 разных независимых точек клинической эффективности. Если мы установим пропорцию статистической значимости как 1 к 20, тогда даже если ваше лекарство вообще не будет оказывать никакого полезного эффекта, в одном исследовании у вас все равно будет вероятность в пределах 40 % найти положительное действие лекарства по крайней мере на одну из точек клинической эффективности просто из-за случайных колебаний в ваших данных. Если вы предварительно не укажете, какие из параметров являются конечными точками эффективности, установленными изначально для исследования, то вы схитрите, а получив положительный результат по любой из 10 выбранных точек, вы объявите о позитивном результате вашего исследования.
Можете ли вы сразу открыто заявить о том, что делаете: «Эй, мы измерили 10 точек эффективности, и по одной из них наблюдается улучшение показателей, поэтому наше лекарство классное»? Да, наверное, так можно сделать, и в определенных обстоятельствах это сработает, потому что многие чтецы научных статей с удовольствием проглотят такую наживку и переключат внимание с одних точек клинической эффективности на другие. Однако большинство заметит вашу уловку. Им захочется увидеть отчет с результатами по изначально намеченным точкам клинической эффективности. Они-то знают, что, если измерять 10 параметров сразу, один из них уж точно будет выглядеть привлекательным просто по счастливой случайности.
Проблема состоит в том, что, даже если люди и знают, что вы должны устанавливать конечную точку клинической эффективности перед началом исследования, эти точки часто оказываются разными в плане исследования и в научной статье: они меняются после того, как проводящие исследование люди просмотрели результаты. Даже вы, случайный читатель, нашедший эту книгу на скамейке в метро, а не профессор статистики или врач, и то поймете, что это настоящее безумие. Если конечная точка клинической эффективности, упоминаемая в законченной статье, отличается от конечной точки клинической эффективности, намеченной до начала исследований, тогда создается совершенно абсурдная ситуация: весь смысл конечной точки клинической эффективности в том, что она назначается до того, как начинаются исследования. Однако люди меняют конечные точки клинической эффективности, и это не просто случайная проблема. На самом деле, это почти что обычное дело, нормальная практика среди исследователей.
В 2009 году группа исследователей собрала все работы, которые только могла найти, посвященные различным случаям использования лекарства под названием габапентин.24
Затем они посмотрели на данные тех исследований, по которым им удалось получить внутренние документы, где была указана первоначальная конечная точка клинической эффективности для каждого. Конечно, материалы половины всех исследований вообще не публиковались (возмущений по этому поводу не должно быть меньше с каждым новым случаем). Были опубликованы результаты по 12 исследованиям, и ученые проверили, действительно ли конечная точка клинической эффективности, упомянутая в научной статье, совпадала с той, которая декларировалась как таковая во внутренних документах до начала исследований.