В-третьих, к концу нулевых годов западные, пре- жде всего, американские поведенческие и когнитивные науки, с одной стороны получили широкое признание бизнес-сообщества и государств, а с другой – из фазы ис- следований и разработок перешли в стадию производ- ства эффективных технологий. Косвенным показателем этого процесса стал тот факт, что в течение нулевых го- дов три виднейших представителя поведенческих наук: Д. Канеман, Дж. Акерлоф и Р. Шиллер получили Нобе- левские премии по экономике. Экономика была выбра- на лишь потому, что Нобелевских премий в сфере наук о человеке просто не существует.
Теперь давайте вдумаемся, чем же, по сути, являет- ся интернет. Причем без разницы, о каком интернете мы говорим – об интернете людей или об интернете вещей. Не надо обладать глубокими техническими знаниями, чтобы понять, что фактически интернет является храни- лищем, своеобразным архивом следов человеческой деятельности. Причем, не только той деятельности, ко- торая реализована в конкретных поступках, действиях, событиях, но и архивом намерений, мнений, мыслей и отношений. Не зря автор знаменитых бестселлеров Маршалл Смит уподобил интернет толще земли, в кото- рой можно обнаружить след доисторического животно- го, умершего миллионы лет назад. По сути, в интернете ничего не исчезает. Даже популярные в постсноуденов- скую эпоху различного рода сервисы удаления аккаун- тов и других следов пребывания в сети, удаляют лишь те следы, которые доступны для наблюдения простыми пользователями, не вооруженными специальными про- граммами, доступными для корпораций и государств.
Соответственно формирование огромного, постоян- но пополняющегося архива поведенческой активности самых различных субъектов, от отдельных государств и огромных компаний до небольших групп и отдельных индивидуумов собственно и послужило базисом появ-
Елена Ларина, Владимир Овчинский
КИБЕРВОЙНЫ XXI ВЕКА. ВОЗМОЖНОСТИ И РИСКИ ДЛЯ РОССИИ
ления Больших Данных. C тех пор направление Больших Данных стало ведущим в сфере информационных техно- логий.
Анализ накопленного за последние годы опыта при- менения технологий Больших Данных позволяет выде- лить несколько ключевых черт, отличающих Большие Данные от всех других информационных технологий. К ним относятся:
• во-первых, огромные массивы разнородной ин- формации о процессах, явлениях, событиях, объектах, субъектах и т.п., пополняемые непрерывно в режиме он-лайн. Согласно имеющейся статистике 60% этой ин- формации носит неструктурированный, в основном тек- стовой характер и 40% составляет структурированная, или табличная информация. В последние годы в общем объеме Больших Данных постоянно нарастает доля ин- формации структурированного характера, поступающей от вещей, соединенных с интернетом – от холодильника до городской системы регулирования светофоров и т.п.;
• во-вторых, специально спроектированные про- граммные платформы, где Большие Данные любого объ- ема могут храниться в удобном для вычислений виде. Особо надо подчеркнуть, что эти архивы отличаются от привычных баз данных, которые приспособлены толь- ко для структурированной или табличной информации. Отличительной чертой этих хранилищ является то, что структурированная и неструктурированная информация могут обрабатываться совместно, как единое целое;
• в-третьих, наличие различного рода математиче- ского, прежде всего, статистического инструментария для обработки Больших Данных и получение результа- тов в виде, понятном для человека. Причем, при анализе Больших Данных используются не только традиционные методы математической статистики, но и алгоритмы рас- познавания образов, нейронные сети, построенные на основе аналогии с нервной системой и т.п.
Глава 3 БОЛЬШИЕ ДАННЫЕ
По данным различных исследований, не более 0,6% всей имеющейся сейчас информации подпадает под ка- тегорию Больших Данных, т.е. накапливается, хранится и перерабатывается. В этих же исследованиях указывает- ся, что потенциально в качестве Больших Данных может использоваться 23% всей хранимой в настоящее время информации. Т.е. фактически сейчас из всей этой инфор- мации используется как Большие Данные, т.е. обрабаты- вается, анализируется чуть больше 3%. Между тем, по- следние достижения в области создания платформ на- копления, хранения и обработки объемов данных всех форматов позволяют увеличить потенциальные Боль- шие Данные с 23% до примерно 40% всей передаваемой в сетях информации.