Все значения размеров выборки в следующей таблице зависят от выбранной альтернативной гипотезы с разницей в 15 %. Размеры выборки увеличивались бы и дальше, если бы разработчики хотели обнаружить еще меньшую разницу, и уменьшились бы, если бы хотели найти только большую разницу.
Исследователям часто приходится брать выборку поменьше, чтобы сэкономить время и деньги, из-за чего выбор большей разницы для альтернативной гипотезы становится привлекательным. Но такой выбор сопряжен с высоким риском. Например, разработчики могли бы сократить размер выборки всего до 62 человек (вместо 268), если бы заменили разницу в альтернативной гипотезе на 30 % между двумя группами (а не 15 %).
Но если в действительности приложение дает разницу всего 15 %, с этим меньшим размером выборки они смогут обнаружить такую меньшую разницу только в 32 % случаев! Это меньше, чем изначальные 80 %, и значит, что в 2/3 случаев будет получен ложноотрицательный результат, который не покажет разницу в 15 %. В идеале любой эксперимент нужно разрабатывать так, чтобы обнаруживать малейшую существенную разницу.
Последнее замечание о
Точно так же, даже несмотря на то, что исследование могло достичь лишь низкого
Статистическую значимость не следует путать с научной, человеческой или экономической значимостью. Даже самый мизерный заметный эффект будет статистически значимым, если размер выборки достаточно велик. Например, если в исследовании сна примет участие достаточное количество людей, вы потенциально обнаружите разницу в 1 % между двумя группами, но будет ли это значимо для покупателей? Нет.
И наоборот, больше внимания стоит обратить на разницу, измеренную в исследовании, вместе с соответствующим доверительным интервалом. Потребители приложения хотят знать не только то, будут ли они лучше спать с ним, чем без него, но и насколько лучше. Возможно, разработчикам даже захочется увеличить размер выборки, чтобы гарантировать определенную погрешность в своих оценках.
Кроме того, Американская ассоциация статистики в одном из выпусков своего журнала за 2016 год подчеркнула, что «научные выводы и деловые или политические решения не должны опираться только на то, преодолевает ли
Получится ли воспроизвести?
Вы уже знаете, что результаты некоторых экспериментов – просто счастливая случайность. Чтобы удостовериться в том, что результат исследования не случаен, его необходимо воспроизвести. Интересно, что в некоторых областях, таких как психология, для воспроизведения положительных результатов предпринимались согласованные усилия, но эти усилия показали, что более 50 % положительных результатов невозможно воспроизвести.
Это низкий показатель и такая проблема с исключительно положительными результатами называется кризисом воспроизводимости.
В этом последнем разделе мы предлагаем кое-какие модели, которые объясняют, как это происходит и как все равно получить больше доверия в своей области исследований.Попытки воспроизведения – это попытки отличить ложноположительные результаты от истинно положительных.
Подумайте, каковы шансы воспроизведения в каждой из этих двух групп. Предполагается, что ложноположительный результат повторится – то есть ожидается получение второго ложноположительного результата при повторном эксперименте – всего в 5 % случаев. С другой стороны, ожидается, что истинно положительный результат повторится в 80–90 % случаев, в зависимости от мощности повторного исследования. Предположим, что это 80 %, как в предыдущем разделе.