Итак, у вас есть список известных нарушений кибербезопасности из отчета Verizon DBIR, но он не указывает на величину совокупности. Иначе говоря, известно, что в урне есть 100 красных шариков, но, не зная общего количества шариков, нельзя определить, какую долю генеральной совокупности они составляют. Однако все еще можно произвольно отобрать несколько шариков и просто сравнить количество красных шариков в выборке с размером самой
Допустим, в списке нашлось 60 подходящих компаний розничной торговли. Из этой выборки в 60 объектов за период с начала 2014 по конец 2015 года выявлено два сообщения о крупных утечках данных. Так как оценивается вероятность возникновения нарушения в течение года, необходимо количество лет в имеющихся данных умножить на количество фирм. Подведем итоги:
• размер выборки: 120 единиц данных (60 компаний × 2 года);
• попадания: 2 взлома за указанный период времени;
• промахи: 118 единиц данных, в которых не было крупных нарушений;
• альфа: априорное значение + попадания = 1 + 2 = 3;
• бета: априорное значение + промахи = 1 + 118 = 119.
Добавив эти данные в электронную таблицу, получим распределение, подобное представленному на рис. 9.3.
Считайте наблюдаемые нарушения примером того,
Рис. 9.3. Частота утечек данных в год для указанной отрасли
Аналогичным образом, имея только два нарушения кибербезопасности в списке из 60 компаний за два года (120 единиц данных), нельзя утверждать, что ежегодная частота нарушений составляет ровно 1,67 %. Мы лишь оцениваем вероятность различной частоты из нескольких наблюдений. В следующем году нам может повезти больше или меньше, даже если в долгосрочной перспективе частота и останется такой же.
Даже среднее значение бета-распределения не составляет ровно 1,67 %, так как среднее значение бета-распределения равно α / (α + β), или 2,46 %. Причина различий в значениях в том, что на бета-распределение влияет априорное распределение. Даже при отсутствии случаев утечек данных α бета-распределения была бы равна 1, а β – 121 (120 промахов + 1 для априорного значения β), и тогда среднее значение было бы 0,8 %.
Другая удобная особенность бета-распределения заключается в легкости обновления. Каждый проходящий год, а по сути, и каждый проходящий день, независимо от наличия факта взлома, может обновлять параметры α и β распределения нарушений кибербезопасности в соответствующей отрасли. Для любой компании, в которой в течение указанного периода произошло заданное событие, обновляется параметр α, а для компаний, в которых не произошло, – параметр β. Даже если ничего не происходило в течение целого года, параметры β все равно обновляются, а следовательно, и наша оценка вероятности события.