Основоположник планирования экспериментов (тестирования гипотез) сэр Рональд Фишер в 1925 году написал монографию «Статистические методы для исследователей», в которой изложил такие понятия, как статистический критерий значимости, правила проверки статистических гипотез, дисперсионный анализ, планирование эксперимента. Это определило наш сегодняшний подход к планированию экспериментов. Вы наверняка слышали про тестирование вакцины от COVID-19 – ее тестировали методом двойного слепого рандомизированного плацебо-контролируемого исследования. Это самое достоверное клиническое исследование, применяемое в доказательной медицине. Рандомизированное – значит распределение пациентов по опытной и контрольной группам происходит случайно. Для чистоты эксперимента крайне важно, чтобы исследователи не могли собрать более легких больных в опытную группу, а более тяжелых – в контрольную. Поэтому существуют специальные методы рандомизации (перемешивания), чтобы в итоге различия между группами стали статистически недостоверными, а результаты исследования более точными. Именно Фишер предложил способ планирования и проведения таких экспериментов. Он некоторое время работал в лаборатории сельского хозяйства в Ротамстеде. Планируя эксперимент с удобрениями [76], исследователь не знает о множестве факторов, которые могут повлиять на результат. Поэтому, пытаясь ответить на вопрос «Какое удобрение лучше?», нет смысла сравнивать рост растений в разных теплицах, в каждой из которых вносили свое удобрение. Сравнивать нужно рост одного и того же растения, получившего два вида удобрений в одной теплице. Кроме того, даже в одной теплице солнечный свет будет падать под разным углом на разные участки, и влажность тоже может быть неравномерной. Поэтому при выборе удобрения А или удобрения Б для каждой лунки нужно подкидывать монетку – орел или решка. Фишер назвал такой подход к планированию эксперимента принципом рандомизации. Только в этом случае можно определить, является ли разница между удобрениями значимой. И лишь соблюдая этот принцип, мы имеем право сказать, что два удобрения находились настолько в равных условиях, насколько это возможно, и почти все неконтролируемые различия устранены.
До Фишера распределение в таких экспериментах производилось систематически, что могло искажать результаты. Интересно, что многие ученые не сразу приняли его метод, считая свой систематический подход верным. Кроме обычных A/Б-тестов, Фишер предложил схемы для более сложных многофакторных тестов. На деле даже с обычными тестами с двумя группами часто возникают проблемы, и до многофакторных тестов, когда проверяется сразу несколько изменений одновременно, редко кто доходит. Поэтому в этой книге я буду фокусироваться на самых простых тестах с двумя группами.
Итак, для проведения теста нам нужны метрика и рандомизация. Тесты проводят с контрольной группой. В медицине группу пациентов делят случайно на две – первой группе дают исследуемое лекарство, второй – лекарство-пустышку под названием плацебо. В маркетинге делается аналогично. Во времена почтовой торговли промоскидки отправляли одной группе клиентов, письма-пустышки (без скидок) – второй. При рассылке email-сообщений интернет-магазина контрольной группе обычно не отправляют ничего. Amazon.com, который был пионером тестирования в интернете, использовал А/Б-тесты (split test) для показа одной группе пользователей старой версии сайта, а второй – новой, и сравнивал их поведение, чтобы выбрать лучшую версию. Перед запуском полноценного боевого теста нужно проверить весь механизм работы, делается это с помощью симуляционного и реального тестов. Также можно использовать А/А-тесты – расскажу о них далее.
Что такое гипотеза в статистике
Для статистической проверки гипотез нам понадобится два важных понятия – генеральная совокупность и выборка. Генеральная совокупность (general population) – это все объекты, относительно которых нужно сделать выводы в исследовании. Выборка (sample) – это часть объектов генеральной совокупности, которые мы смогли пронаблюдать.
Пусть у нас есть огромный резервуар с шарами разного диаметра. В самом резервуаре сотни тысяч шаров. Средний диаметр неизвестен, и нам нужно его определить. Весь резервуар посчитать невозможно, слишком много работы нужно затратить. Для экономии средств и времени мы сделаем случайную выборку с замещением (возвращаем шар обратно после определения диаметра) определенного количества шаров. В этой задаче резервуар с шарами – это генеральная совокупность, средний диаметр шара – неизвестный параметр, который нам нужно определить, и мы сделаем это с помощью случайной выборки. Параметр в генеральной совокупности является истинным, параметр выборки является его оценкой.