Если вы хотя бы частично осознаёте, какие ресурсы вам доступны, то поймете, что данных довольно много и что очень умные люди уже проанализировали их для вас. Часть информации даже находится в открытом доступе. Все приведенные ниже примеры были предоставлены для этой книги нашими приглашенными авторами.
• Компания VivoSecurity Inc. собирает в основном общедоступные сведения об утечках информации и других инцидентах, связанных с кибербезопасностью. Используя данные портала министерства здравоохранения с сообщениями об утечках информации (также известного как «Стена позора минздрава»), специалисты VivoSecurity обнаружили интересную взаимосвязь между количеством сотрудников в организации и вероятностью утечки информации. На портале2 минздрава представлены утечки записей личной медицинской информации, затронувшие не менее 500 человек, и эти данные можно загрузить в электронную таблицу. Частота утечек данных по состоянию на 2015 год составляла около 14 % на 10 000 сотрудников в год (выше, чем по информации о крупных взломах, так как тут учитываются даже утечки всего в 500 записей). Показатель немного вырос по сравнению с 2012 годом, когда он составлял примерно 10 %. Подробный анализ компании VivoSecurity представлен в приложении Б.
• Антон Мобли, специалист по анализу данных из компании GE Healthcare (и коллега Ричарда Сирсена, одного из авторов книги), провел любопытный анализ влияния политики надежности паролей на вероятность их взлома. Анализ частично основан на эмпирических исследованиях паролей (например, паролей вроде «password» или «qwerty»), а также рассматривает правила, по которым они создаются, и относительную сложность подбора паролей при помощи широко доступных алгоритмов. В частности, Мобли приводит эмпирические данные о том, какие типы подсказок к паролям, используемых людьми, значительно упрощают процесс подбора пароля (например, «моя фамилия» или «улица моей компании»). Согласно его исследованию, в организации с 2000 сотрудников практически наверняка случится взлом паролей, если в ней не следят за соблюдением стандартов составления паролей. Вероятность взлома паролей в этой же организации снизилась бы примерно до всего лишь 5 % при наличии обязательного требования выбирать пароль из 15 символов разных типов (например, «AnNtx5#undR70!z»). Подробный анализ представлен Мобли в приложении Б.
• Маршалл Кюперс (мы упоминали его в главе 6, он специализируется на статистическом анализе данных в сфере кибербезопасности и на момент написания книги готовился получать степень доктора философии в Стэнфорде) вместе с доктором Пейт-Корнелл из Стэнфорда представили на конференции SIRACon 2015 статистический анализ, демонстрирующий несколько интересных тенденций (часть из них показана на рис. 9.6). На их основе можно сделать ряд полезных выводов для анализа рисков кибербезопасности.
– Частота взлома данных вследствие потери или кражи устройств остается неизменной на протяжении последних нескольких лет и пропорциональна количеству сотрудников. Эти результаты согласуются с выводами на основе анализа данных министерства здравоохранения.
– Снижается частота заражения вредоносным ПО, но не его воздействие, распределение которого имеет толстый хвост.
– Время расследования инцидентов в точности соответствует «степенному закону» (степенной закон – распределение, в котором логарифм частоты события и логарифм воздействия создают прямую линию, идущую под углом вниз. Это распределение описано в приложении А).
Рис. 9.6. Распределение времени расследования инцидентов, связанных с кибербезопасностью
Завершая разговор о байесовском методе
Две последние главы знакомили вас сначала с простыми, а затем с более продвинутыми эмпирическими подходами, применяющими байесовский метод. Обращаясь к уже разработанным электронным таблицам за более подробными объяснениями, мы рассмотрели довольно большой объем информации.
Было показано, как байесовские и производные от них методы позволяют обновлять первоначальные калиброванные оценки с учетом новой информации. Продемонстрировано не только использование байесовских методов для решения простой проблемы обновления информации, но и то, как можно применять на практике гораздо более сложные методы вроде бета-распределения, пользуясь возможностями редактора Excel. А также как можно объединить несколько условий с помощью метода ЛОШ и метода линзы и как сочетать ЛОШ с бета-распределением.
Не обязательно пытаться разобраться во всем сразу. Делайте все постепенно и добавляйте новые методы по мере их освоения. Есть множество вариантов моделирования и использования новой информации – и любой из них определенно лучше, чем догадки или применение методов без математического обоснования. Далее в третьей части мы рассмотрим еще несколько концепций и обсудим практические соображения по внедрению изученных методов в организации.