Примем скучную нулевую гипотезу:
На рисунке показаны результаты 40 000 испытаний для двух «монеток»: идеальной (с 50 %-й вероятностью обоих исходов) и слегка неидеальной (в которой выпадение орла имеет вероятность 55 %), проводимых с целью вычислить вероятность выпадения орла. Слово «монетка» взято в кавычки, потому что на самом деле использовался генератор случайных чисел, подчиняющихся распределению Бернулли. Видно, что только после 2000 испытаний «облака» наблюдаемых значений среднего начинают отчетливо разделяться. Для простоты можно считать, что монетка — неплохой генератор случайного выбора из двух равновероятных вариантов (рис. 4.1).
Рис. 4.1.
Эксперименты с подбрасыванием идеальной и слегка неидеальной монетки с целью зафиксировать ее неидеальностьПравило 2σ для распределения Бернулли можно использовать в определении доверительного интервала при построении гистограмм. По сути, каждый столбик гистограммы представляет случайную величину с двумя значениями «попал» — «не попал», где вероятность попадания в выделенный интервал соответствует моделируемой функции вероятности. В качестве демонстрации сгенерируем множество выборок для трех распределений: равномерного, геометрического и нормального, — после чего сравним оценки разброса наблюдаемых данных с наблюдаемым разбросом. И здесь мы вновь видим отголоски центральной предельной теоремы, проявляющиеся в том, что распределение данных вокруг средних значений в гистограммах близко к нормальному. Однако вблизи нуля характер разброса изменяется, распределение точек становится близким к другому, часто встречающемуся
Важно понимать, что правила 2σ и даже 3σ не избавляют нас от ошибок. Они не гарантируют истинности утверждения, это не доказательства. Статистика ограничивает степень недоверия к гипотезе, не более того (рис. 4.2).
Рис. 4.2.
Пример, показывающий соотношение оценки разброса, которая проведена по правилу 2σ, и наблюдаемого разброса для трех случайных величин. Здесь толстой линией показаны истинные распределения, а тонкими — оценка для наблюдаемых отклоненийБлестящий математик и автор прекрасного курса по теории вероятностей Джан-Карло Рота на своих лекциях в Массачусетском технологическом институте приводил такой пример. Представьте себе научный журнал, редакция которого приняла волевое решение: публиковать исключительно статьи с положительными результатами, которые удовлетворяют правилу 2σ или строже. При этом в редакционной колонке указано, что читатели могут быть уверены: с вероятностью 95 % они не встретят на страницах этого журнала неверный результат! Увы, это утверждение легко опровергнуть теми же рассуждениями, что привели нас к вопиющей несправедливости при тестировании водителей на алкоголь. Пусть 1000 исследователей подвергнут опыту 1000 гипотез, из которых верна лишь какая-то часть, скажем 10 %. Исходя из смысла проверки гипотез, можно ожидать, что 900 × 0,05 = 45 из неверных гипотез ошибочно не будут отвергнуты и войдут в журнал — наряду с 900 × 0,95 = 95 верными результатами. Итого из 140 результатов добрая треть окажется неверной!
Этот пример прекрасно демонстрирует наш отечественный закон подлости, который не вошел пока в хрестоматии мерфологии и сформулирован бывшим премьер-министром России Виктором Черномырдиным[21]
:Легко получить общую оценку доли неверных результатов, которые войдут в выпуски журнала, при предположении, что доля верных гипотез равна 0 < α < 1, а вероятность принятия ошибочной гипотезы равна
Области, ограничивающие долю заведомо неверных результатов, которые смогут быть опубликованы в журнале, показаны на рис. 4.3.
Рис. 4.3.
Оценка доли публикаций, содержащих заведомо неверные результаты, при принятии различных критериев проверки гипотез. Видно, что принимать гипотезы по правилу 2σ рискованно, тогда как критерий 4σ уже может считаться весьма сильным