Используя дополнительные калиброванные вероятности, полученные от руководителя отдела информационной безопасности, а именно
P(~КУД | УЭУ) = 1 – P(КУД | УЭУ)
и
P(~КУД) = 1 – P(КУД),
мы получаем
= (1–0,25)(0,01) / (1–0,0124) = 0,76 %.
А теперь то, что мы действительно хотели узнать все это время: насколько сильно результаты теста на проникновение изменят вероятность крупной утечки данных?
5. Вероятность крупной утечки данных при положительном тесте на проникновение:
P(КУД | ПТП) = P(УЭУ | ПТП) P(КУД | УЭУ) + (1 – P(УЭУ | ПТП)) P(КУД | ~УЭУ) = (0,95)(0,25) + (0,05)(0,01) = 23,8 %.
6. Вероятность крупной утечки данных при отрицательном тесте на проникновение:
P(КУД | ~ПТП) = P(УЭУ |~ПТП)P(КУД | УЭУ) + (1 – P(УЭУ |~ПТП)) P(КУД | ~УЭУ) = (0,0005)(0,25) + (1–0,0005)(0,01) = 1,01 %.
Данные о результате теста на проникновение оказались информативны, поскольку P(КУД | ПТП) > P(КУД) > P(КУД | ~ПТП). Воспринимайте информативные условия как качели-балансир, где посередине находится исходная априорная вероятность. Если условие повышает вероятность, то противоположное условие должно ее уменьшать, и наоборот (кстати, именно поэтому правильным ответом в вопросе на проверку статистической грамотности в табл. 5.4 главы 5 является ответ А).
Таким образом, мы продемонстрировали, как можно применить байесовский анализ для обновления априорной вероятности крупной утечки данных, основываясь на результатах наблюдаемого теста на проникновение. Чтобы максимально упростить процесс, все расчеты представлены в электронной таблице, которую, как обычно, можно найти на сайте www.howtomeasureanything.com/cybersecurity. Начали мы с применения теста на понятность к трем переменным (УЭУ, КУД и ПТП), но это лишь отправная точка для продвинутых моделей, объединяющих суждения с доказательствами с целью уменьшения неопределенности.
1. Dennis V. Lindley,
Глава 9. Эффективные методы на основе формулы Байеса
Напомним, что в нашем опросе 23 % респондентов согласились с утверждением «Вероятностные методы непрактичны, так как вероятности требуют вычисления точных данных, а у нас их нет». Их меньшинство, но даже те, кто не согласен с утверждением, скорее всего, попадали в ситуации, когда казалось, что данных слишком мало для формулирования полезных выводов. Именно поэтому, видимо, большинство участников опроса также ответили, что порядковые шкалы уместны при измерении неопределенности. Возможно, им удобно использовать крайне неточные и произвольные значения вроде «высокий, средний, низкий» для передачи информации о риске, но при этом, по иронии судьбы, они верят и в количественные подходы. Те же, кто всецело доверяет количественным методам, полностью отвергают порядковые шкалы при измерении крайне неопределенных величин. При высокой степени неопределенности вы используете вероятности и диапазоны, активно заявляя о своей неуверенности, особенно когда полагаетесь на знания экспертов. Из результатов исследований, описанных ранее, вам уже известно, как даже субъективные оценки можно разложить на составляющие и сделать более согласованными, прежде чем применять новые «объективные» данные, и как использовать для обновления оценки всего одну точку данных (например, результат одного теста на проникновение).
Теперь, когда заложена основа эмпирических байесовских методов с помощью, пожалуй, чрезмерно упрощенного примера, можно перейти к решению более сложных – и более реалистичных – проблем.