Проще говоря, согласно нашей модели, следует начать с анализа решений и придерживаться его на протяжении всего времени накопления эмпирических данных. На предписывающем уровне выходные данные модели науки о данных становятся входными данными для моделей анализа решений. Все эти модели работают вместе, предлагая, а в некоторых случаях динамически принимая решения. Решения могут быть обработаны и, следовательно, снова введены в модель. Примером использования предписывающей аналитики может служить так называемая «погоня за кроликами». Как уже говорилось, большая часть технологий операционной безопасности связана с повторением по кругу процессов обнаружения, блокировки и удаления. В общем смысле именно так работают антивирусное ПО и различные виды встроенной защиты. Только если происходит нарушение или какой-то прорыв обороны, средства защиты объединяются. А что насчет серой зоны, которая предшествует нарушению и/или может быть признаком продолжающегося нарушения? То есть нет фактических доказательств текущего нарушения, имеются лишь доказательства, что определенные активы были скомпрометированы, и в данный момент они уже восстановлены.
Например, рассмотрим вредоносное ПО, которое было успешно удалено, но перед удалением службы внутренней защиты блокировали его связь с командно-контрольным сервером. Вы собираете дополнительные доказательства того, что взломанные системы пытались отправлять сообщения на заблокированные сейчас командно-контрольные серверы. Процесс длился месяцами. Что делать? Вредоносное ПО удалено, но вдруг осталась пока не обнаруженная утечка данных? Или, возможно, была утечка, которая уже закончилась, но ее не заметили? Иначе говоря, стоит ли начинать криминалистическую экспертизу на предмет наличия еще одной, а то и нескольких более крупных вредоносных «кампаний», выкачивающих данные или занимавшихся этим ранее?
В идеальном мире с неограниченными ресурсами ответ был бы «Да!», но реальность такова, что ваша группа реагирования на инциденты, как правило, на 100 % занята расследованием подтвержденных инцидентов и им не до «вероятных» взломов. Возникает дилемма, ведь если не отреагировать на «возможные взломы», они грозят перерасти в полномасштабные, долгосрочные утечки данных. На самом деле, скорее всего, вы никогда не столкнетесь с такой дилеммой, если научитесь расставлять приоритеты среди имеющихся данных. Мы предполагаем, что подходы, аналогичные представленным в главе 9, можно интегрировать в существующие системы обнаружения нарушений почти в режиме реального времени. Например, модель линзы позволяет проводить расчеты быстро, благодаря тому что не требует массивных вероятностных таблиц узлов. К тому же она целиком и полностью байесовская и может работать как с эмпирическими доказательствами, получаемыми непосредственно от детерминированных и недетерминированных (наука о данных) систем безопасности, так и с калиброванными суждениями экспертов в области безопасности. Поскольку модель линзы – байесовская, то, основываясь на результатах решений самой модели, можно постоянно обновлять представления о различных типах сценариев и рекомендации, когда следует проводить дальнейшее расследование определенных событий из «серой зоны». Такой подход начинает все сильнее напоминать применение искусственного интеллекта в сфере кибербезопасности. Опять же это объемная тема для следующей книги, и нашей целью было лишь немного пролить свет на будущее направление.
Поговорим еще немного об АСД. В данном примере нами будет использоваться язык программирования R, но с таким же успехом можно работать с помощью Excel, Python и т. п. Данный раздел не является исчерпывающей инструкцией по работе с языком программирования R. Мы поясним код ровно настолько, насколько это поможет объяснить идеи анализа. Наша цель – интуитивное понимание программы. Потребность в интуиции нельзя переоценить. Интуиция подскажет творческое решение проблем. В связи с этим мы считаем, что Excel и скриптовые языки программирования – отличные варианты, позволяющие новичкам в анализе рисков быстро развить интуицию для аналитики. В сущности, если какие-либо понятия из предыдущих глав все еще кажутся вам непонятными, поработайте дополнительно с инструментами Excel. Изображение и программа могут стоить нескольких тысяч слов. То же самое и здесь: установите R и попробуйте с ним поработать, тогда все покажется гораздо более логичным.