Как так получается в бета-распределении? Не противоречит ли это тому, что рассказывают в базовом университетском курсе статистики о размерах выборки? Нет. С расчетами все в порядке. По сути, в бета-распределении к диапазону возможных значений применяется формула Байеса. Чтобы понять, как это работает, рассмотрим вопрос попроще, например: какова вероятность того, что в выборке из шести объектов будет 1 попадание, если только 1 % совокупности выполняет процедуру правильно? Раз предполагается, что нам известна доля генеральной совокупности, и нужно вычислить вероятность получения именно такого количества «попаданий» в выборке, следует применить так называемое биномиальное распределение. Биномиальное распределение – своего рода дополнение к бета-распределению. В первом случае оценивается вероятность различных результатов выборки с учетом доли генеральной совокупности, а во втором случае – доля генеральной совокупности с учетом количества результатов в выборке. В Excel биномиальное распределение записывается как =БИНОМРАСП(число_успехов; число_испытаний; вероятность успеха;0), где «0» означает, что будет получена вероятность конкретного результата, а не накопленная вероятность до определенного уровня.
Это позволяет нам получить наблюдаемый результат (например, 1 из 6) для одной возможной доли генеральной совокупности (в данном случае 1 %). Расчеты повторяются для гипотетической доли совокупности, равной 2, 3 и т. д. до 100 %. Теперь с помощью формулы Байеса можно перевернуть данные, чтобы получить сведения, которые на самом деле нас интересуют: какова вероятность, что X является долей генеральной совокупности, учитывая, что у нас 1 попадание из 6? Другими словами, биномиальное распределение дает нам P(наблюдаемые данные | доля), и мы переводим их в P(доля | наблюдаемые данные). Это очень полезный трюк, который в бета-распределении уже выполнен за нас.
Еще один момент, прежде чем продолжить: не кажется ли вам диапазон от 5,3 до 52 % широким? Тут стоит учитывать, что в выборке было всего шесть человек, а ваш предыдущий диапазон был еще шире (90 %-ный ДИ при равномерном распределении от 0 до 100 % составляет от 5 до 95 %). Все, что требуется для дальнейшего уменьшения диапазона, – продолжать делать выборки, и
Если необходимы дополнительные примеры, чтобы лучше понять сказанное, рассмотрим один из тех, что приводил Хаббард в книге «Как измерить все, что угодно. Оценка стоимости нематериального в бизнесе». Представьте урну, наполненную красными и зелеными шариками. Допустим, мы считаем, что доля красных шариков может составлять от 0 до 100 % (это наше априорное значение). Чтобы оценить долю генеральной совокупности, отбираются шесть шариков, один из которых оказывается красным. Оценив результат, как в примере с соблюдением протоколов безопасности, мы бы получили диапазон от 5,3 до 52 %. Ширина диапазона объясняется тем, что из шести шариков можно получить один красный при многих значениях доли генеральной совокупности. Такой результат возможен, как если красных шариков всего 7 %, так и если половина всех шариков являются красными. Давайте посмотрим теперь, как экстраполировать разобранные примеры на нарушения кибербезопасности.
Думайте о нарушении как о вытаскивании красного шарика из урны. Каждая компания в вашей отрасли ежегодно случайным образом вытягивает что-то из «урны нарушений». Некоторым компаниям достается красный шарик, указывающий на наличие нарушения кибербезопасности. Таких компаний могло быть и больше, а могло быть и меньше. Вам точно неизвестно, с какой частотой происходят нарушения (т. е. доля шариков красного цвета), но можно использовать наблюдаемые нарушения для ее оценки.