Устранить эту проблему можно, изначально создавая максимально похожие группы. Например, переместив часть пациентов из одной группы в другую или сразу набирая их так, чтобы все параметры, которые мы считаем важными, были распределены поровну. Можно исключить влияние пола, отбирая в обе группы только женщин. Или следить за тем, чтобы процент женщин в сравниваемых группах был примерно одинаков. Но предложенное Фишером решение намного изящнее и эффективнее. Его преимущество в том, что оно уравновешивает между группами даже факторы, о существовании которых мы не догадываемся.
Фишер впервые применил его, работая на той самой Ротамстедской экспериментальной станции, где проходило знаменитое чаепитие. Его пригласили в Ротамстед, чтобы разобраться с данными, накопленными за девяносто лет сельскохозяйственных экспериментов. Станция занималась сравнительным анализом урожайности сортов и эффективности органических удобрений. Эксперименты заключались в том, что каждый год сотрудники станции засевали поля разными сортами овощей и злаков и применяли разные смеси азотных и фосфатных солей, а когда приходило время урожая, взвешивали и записывали полученный результат. Результаты на разных полях сравнивали и между собой, и с тем, что было собрано на контрольном поле, которое не удобрялось.
Сотрудники станции понимали, что сравниваемые поля изначально отличаются. На одном почва могла быть питательнее, на другом – мог сказываться накопленный эффект примененных в предыдущие годы удобрений, третье могло получать больше влаги во время дождя, четвертое было лучше освещено, а на пятом было меньше насекомых-вредителей. Возникал неизбежный вопрос: если на втором поле собрали на 10% больше картофеля, чем на четвертом, можно ли считать, что дело в сорте картофеля или в удобрении, а не в особенностях поля? И не была бы разница такой же, если бы оба поля засеяли одним сортом и вообще не удобрили?
Для решения этой проблемы были придуманы индексы плодородности, которые высчитывали при помощи сложных формул, делая поправки на разные факторы. Однако каждая из сельскохозяйственных станций Великобритании выработала свои методы расчета и считала их единственно верными. К тому же сделать практические выводы из сложных вычислений было крайне непросто.
Изучив накопленные данные, Фишер предложил полностью изменить дизайн экспериментов. Он рассуждал так. Каждый квадратный фут земли отличается от остальных множеством параметров, которые невозможно точно измерить и учесть, как невозможно найти и два одинаковых поля. А значит, различия между сравниваемыми полями нужно каким-то образом уравновесить. Фишер предложил разбить все поля на множество маленьких участков и относить их к одной из групп эксперимента случайным образом. Например, решать, каким сортом картофеля будет засеян каждый из участков для сравнительного теста урожайности двух сортов картофеля, подбрасывая монетку. Результат будет выглядеть примерно так.
Плодородность разных частей поля может заметно отличаться. Но, поскольку мы сравниваем не две половины поля, а общий урожай на всех случайно разбросанных по полю участках, их плюсы и минусы достанутся каждому из двух сортов картофеля примерно поровну.
Чем больше количество участков, на которые мы делим поле, тем меньше различаются стартовые условия. При малом их количестве различия могут быть заметны, но даже в этом случае, объяснял Фишер, случайное распределение даст лучший результат, чем попытка сделать ручную поправку на множество факторов, в том числе неизвестных. Кроме того, случайное распределение создает математическую основу для дальнейших расчетов и позволяет определить размер возможной ошибки.
Метод случайного распределения по группам, названный
Рандомизация в медицинских экспериментах
Сравнимость групп в медицинском эксперименте очень сильно зависит от способа, которым их создают. Худший из подходов – оставить распределение на усмотрение экспериментатора: это дает слишком много возможностей манипулировать результатами. Что мешает, например, отправить молодых пациентов в экспериментальную группу, а пожилых в контрольную? Это обеспечит и более быстрое выздоровление, и меньшую смертность в первой даже при абсолютно бесполезном лечении.
Когда группы создают таким образом, они часто отличаются по возрасту, полу, серьезности болезни и общему состоянию пациентов. Оценка эффективности лечения в подобных экспериментах завышена в среднем на 30–40%. Хотя исследователи могут быть напрямую заинтересованы в положительном результате и манипулировать составом групп осознанно, возможно и невольное влияние – скажем, если из сострадания к пациентам исследователь включает в экспериментальную группу тех, кому лечение нужнее, или тех, кому оно скорее поможет.