В Excel также есть обратная функция вероятности для бета-распределения: =БЕТА.ОБР(вероятность; альфа; бета). Она возвращает долю генеральной совокупности, достаточно высокую, чтобы существовала вероятность, что истинная доля совокупности меньше.
Параметры α и β в бета-распределении кажутся абстрактными, и в книгах по статистике редко поясняется, как их понимать. Однако существует конкретный способ их объяснения как числа «попаданий» и «промахов» в выборке. Попаданием в выборке является, скажем, компания, у которой была утечка данных в определенный период времени, а промахом – компания, в которой ее не было.
Чтобы вычислить α и β на основе попаданий и промахов, необходимо определить априорную вероятность. Опять же, информативная априорная вероятность может быть просто откалиброванной оценкой эксперта по данной проблеме. Если же нам нужна предельно осторожная оценка, можно использовать неинформативную априорную вероятность и просто оставить равномерное распределение от 0 до 100 %. Это можно сделать с помощью бета-распределения, задав значения α и β, равные 1. Такой подход указывает на то, что у нас нет почти никакой информации об истинной доле генеральной совокупности. Потому это «неинформативное» априорное распределение. Нам известно лишь математическое ограничение, что доля генеральной совокупности не может быть меньше 0 % и не может превышать 100 %. В остальном мы просто говорим, что все значения между ними одинаково вероятны, как показано на рис. 9.1.
Рис. 9.1. Равномерное распределение (бета-распределение, в котором α = β = 1)
Обратите внимание, что на рисунке равномерное распределение представлено в более привычном виде «функции плотности распределения вероятности (ФПР)», где площадь под кривой равна 1. Так как функция БЕТАРАСП является интегральной вероятностью, необходимо создать несколько уровней приращения, вычисляя разницу между двумя интегральными функциями плотности, близкими друг к другу. Просто представьте, что высота точки на ФПР обозначает относительную вероятность по сравнению с другими точками. Напомним, что у нормального распределения максимум приходится на середину, т. е. значения вблизи середины нормального распределения более вероятны. В представленном же случае равномерного распределения мы показываем, что все значения между минимумом и максимумом равновероятны (т. е. оно плоское).
Теперь, если у нас есть выборка из некоторой совокупности, пусть даже очень маленькая, можно обновить параметры α и β, указав число попаданий и промахов. Для выполнения расчетов на сайте www.howtomeasureanything.com/cybersecurity доступна электронная таблица с бета-распределением. Снова рассмотрим случай, когда необходимо оценить долю пользователей, соблюдающих некие процедуры безопасности. Отобрав случайным образом шесть пользователей, обнаруживаем, что только один из них делает все правильно. Давайте назовем его «попаданием», а остальных пятерых – «промахами». Добавив попадания к априорному значению α, а промахи – к априорному значению β, получаем:
= БЕТАРАСП(x; априорное α + попадания; априорное β + промахи).
На рис. 9.2 показано, как будет выглядеть ФПР, если добавить выборку из шести объектов с одним попаданием в наше исходное равномерное распределение. Для построения такого изображения можно воспользоваться следующей формулой:
= БЕТАРАСП(x + i/2; априорное α + попадания; априорное β + промахи) – БЕТАРАСП(x – i/2; априорное α + попадания; априорное β + промахи),
где i – размер используемого приращения (размер увеличения произвольный, но чем меньше его сделать, тем точнее будут изображения распределений). Если вам что-то непонятно, изучите пример в электронной таблице.
Рис. 9.2. Распределение, начинающееся с априорного равномерного и обновленное данными выборки с 1 попаданием и 5 промахами