Вычисление частоты с помощью (очень) малого количества точек данных: бета-распределение
Есть чуть более сложная производная от формулы Байеса, о которой стоит чаще вспоминать в сфере кибербезопасности. Допустим, вы представляете одну из крупнейших компаний розничной торговли, о которых говорилось в главе 6, и вам снова требуется оценить вероятность утечки данных. Но в этом случае новые эмпирические данные являются не результатом теста на проникновение, а наблюдаемыми (точнее, широко освещенными в СМИ) крупными утечками данных. Естественно, вам бы захотелось использовать новостные репортажи для оценки вероятности подобного нарушения в вашей организации. В идеальном мире у вас была бы актуарная таблица для сферы кибербезопасности вроде тех, что применяются при оценке страхования жизни, здоровья и имущества. Тысячи компаний в отрасли прилежно сообщали бы данные в течение многих десятилетий. А вы бы на их основе вычисляли «интенсивность» или «частоту» утечек данных, отражающую процент компаний, в которых произойдет утечка в конкретном году. Как и в страховании, частоту можно было бы использовать в качестве косвенного показателя вероятности того, что у вас произойдет такое же событие.
Но в реальности для вашей актуарной таблицы взломов не так уж много информации. К счастью, много данных и не понадобится, если задействовать статистический инструмент, известный как бета-распределение. С его помощью можно делать выводы о годовой частоте нарушений даже в случае, когда данных очень мало.
К тому же, как уже не раз отмечалось, у вас больше данных, чем кажется. При оценке ущерба репутации, например, странно говорить о недостатке сведений о крупных утечках данных, поскольку, по сути, есть вся нужная информация. Ведь каждая масштабная утечка в крупных компаниях розничной торговли, повлекшая за собой огромные убытки, активно освещалась. Собственно говоря, многие убытки возникли лишь
Изучив отчет компании Verizon о расследовании утечек данных – Data Breach Investigations Report (DBIR), а также другие источники сведений о нарушениях, можно узнать количество утечек в каждой отрасли. Однако сама по себе эта информация не сообщает нам, какова вероятность возникновения утечки в отдельной компании отрасли. Если в такой-то отрасли в указанном году произошло пять утечек данных, то в масштабах отрасли это 30 % или 5 %? Для ответа потребуется узнать (разложить) размер совокупности, из которой были взяты компании, включая те, где утечек не было.
Именно на этом этапе некоторые эксперты по кибербезопасности (те, кто помнит из области статистики ровно столько, чтобы истолковать все неправильно) сдаются, говоря, что несколько утечек не являются «статистически значимыми» и не позволяют делать какие-либо выводы. Другие (особенно те, кто, как мы надеемся, прочитает эту книгу) не отступят так легко. Ведь у нас, повторимся, больше данных, чем кажется, а нужно нам меньше, чем кажется, особенно при наличии доступа к бета-распределению.
С бета-распределением удобно определять долю генеральной совокупности – часть совокупности, попадающую в определенную категорию. Если только 25 % сотрудников правильно выполняют какую-либо процедуру, доля генеральной совокупности составит 25 %. Теперь предположим, мы не знаем, составляет ли она ровно 25 %, но хотели бы ее оценить. При возможности провести полную перепись всей совокупности доля была бы известна точно, но у нас есть доступ только к небольшой выборке. Если имеется выборка, скажем, только из 10 человек, будут ли результаты информативны? Именно здесь появляется бета-распределение. И, вероятно, вас удивит, что, в соответствии с бета-распределением нам потребуется довольно небольшая выборка, чтобы получить новую информацию.
Как бы парадоксально это ни звучало, с помощью бета-распределения можно определить диапазон для доли генеральной совокупности даже при очень малом количестве данных. Оно применимо ко многим ситуациям в области кибербезопасности, в том числе к вероятности возникновения риска, с которым сталкивались лишь немногие организации. У бета-распределения всего два параметра: альфа (α) и бета (β) – сначала они могут показаться абстрактными, но чуть позже мы расскажем о них подробнее. В редакторе Excel распределение записывается формулой =БЕТАРАСП(x;альфа; бета), где x – доля совокупности, которую нужно протестировать. Функция вычисляет вероятность, что доля генеральной совокупности меньше x – мы называем это интегральной функцией плотности (ИФП), поскольку для каждого x она дает накопленную вероятность, что случайная величина будет меньше х.