Наша модель началась с суждений руководителя отдела информационной безопасности о ключевых переменных и их взаимосвязи. В частности, он предоставил калиброванную оценку вероятности масштабной утечки данных в свете существования удаленно эксплуатируемой уязвимости.
Введя несколько условных обозначений, мы сможем избежать более длительных и потенциально более запутанных словесных объяснений. Некоторым читателям они, возможно, хорошо знакомы, но на случай, если вы что-то подзабыли, просмотрите эту статью, чтобы освежить в памяти, как писать на языке вероятностей. А начнем мы с нескольких практичных правил из теории вероятностей. Это не полный список фундаментальных аксиом и определенно не всеобъемлющий перечень всех теорем, которые могут оказаться полезными, однако, чтобы разобраться в материале главы, их будет достаточно.
1. Правило записи вероятности.
P(A) = вероятность события A. P(A) принимает некоторое значение между 0 и 1 включительно.
P(~A) = вероятность того, что событие A
Если P(КУД) – вероятность крупной утечки данных в указанном году, то P(~КУД) – вероятность, что крупной утечки данных не произойдет.
2. Правило «Какое-то суждение должно быть истинным, но противоречащие суждения не могут быть истинными одновременно».
Вероятности всех взаимоисключающих и совместно исчерпывающих событий или состояний должны в сумме давать 1. Если есть только два возможных исхода, скажем, А или не А, тогда:
P(A) + P(~A) = 1.
Например, крупная утечка данных либо произойдет, либо нет. Если мы однозначно определили термин (а по нашему предположению, в этом случае так и есть), то может быть либо один вариант, либо другой, но не оба одновременно (т. е. КУД может произойти или НЕ произойти).
3. Правило записи вероятности наступления более одного события.
P(A,B) означает, что верны и A, и B. Если A и B «независимы», т. е. вероятность одного не зависит от другого, тогда P(A,B) = P(A)P(B). Поскольку в случае КУД, УЭУ и ПТП это может быть не так, нельзя говорить, что P(КУД, УЭУ, ПТП) = P(КУД)P(УЭУ)P(ПТП).
4. Правило записи и вычисления вероятности в ситуации «это зависит от» (условная вероятность).
P(A | B) = условная вероятность A при заданном B. Например, P(КУД | УЭУ) – так можно записать вероятность возникновения крупной утечки данных при наличии удаленно эксплуатируемой уязвимости. Также верно, что P(A | B) = P(A,B) / P(B). Изменение A в зависимости от двух или более событий записывается как P(A | B,C).
5. Правило разложения вероятности наступления более одного события на ряд вероятностей «это зависит от».
Применив правило 4, можно превратить совместную вероятность двух событий в P(A,B) = P(A | B)P(B), а если речь идет о совместной вероятности трех событий, можно написать P(A,B,C) = P(A | B,C)P(B | C)P(C) и т. д. Это называется «цепным правилом».
6. Правило «возможны разные варианты развития событий».
Правило 4 можно распространить на вычисление вероятности, основанной на всех условиях, при которых событие может наступить, и вероятностей каждого из этих условий.
P(A) = P(A | B)P(B) + P(A |~B)P(~B).
Например, положительный тест на проникновение оказывает определенное влияние на вероятность крупной утечки данных. Используя это правило, вероятность крупной утечки данных можно записать следующим образом:
P(КУД) = P(КУД | ПТП)P(ПТП) + P(КУД |~ПТП) P(~ПТП).
7. Правило Байеса, или Как «перевернуть» условную вероятность.
Часто требуется «перевернуть» условную вероятность. То есть мы можем начать с P(A | B), но на самом деле нам нужна P(B | A). Оба варианта равноценны, только если P(A) = P(B), что часто не так. Поэтому, чтобы перевернуть их, надо применить формулу Байеса, которая записывается как:
P(A | B) = P(A)P(B | A) / P(B).
Иногда такую запись называют «простой» байесовской формой. P(B) вычисляется в соответствии с правилом, изложенным в пункте 3. Если рассматривать только два условия для P(B), тогда правило 4 позволит заменить P(B), так что:
P(A | B) = P(A)P(B | A)/[P(B | A)P(A) + P(B | ~A)P(~A)].