Достаточно парадоксально, что до сих пор при ши- роком использовании технологий Больших Данных нет общеупотребительного их определения. Наиболее часто используется популярное определение Майкла Фран- клина из Университета в Беркли: «Большие Данные – это любые данные, работа с которыми требует значительных затрат и из которых трудно извлечь информацию». Дан- ное определение кочует из книги в книгу, из работы в ра- боту. Между тем, оно является лучшим подтверждением тезиса о том, что наука о Больших Данные и практиче- ские технологии Больших Данных живут в параллельных реальностях. Соответственно, наука о Больших Данных не столько выступает надежным базисом для инжене- рии данных, сколько намерено или ненамеренно скры- вает революционную суть технологий Больших Данных. В самом деле, определение через большие затра-
ты и трудность обработки может указывать не только на специфические характеристики данных, но и на не- эффективность применяемых технологий. По сути, это определение ничего не говорит о том, чем Большие Дан- ные отличаются от просто данных. Казалось бы, штука эта безобидная и носит исключительно академический характер. Однако, на практике это не так. Когда лица, принимающие решения, возможно и не обладающие
Глава 3 БОЛЬШИЕ ДАННЫЕ
глубокими профессиональными познаниями, но в по- давляющем числе наделенные недюжинным здравым смыслом, встречаются с подобными определениями, у них возникает подозрение, что они имеют дело с оче- редной маркетинговой уловкой. Суть этой уловки в том, чтобы просто извлечь из организации деньги, заставив ее заплатить за старые решения под новым названием. Несомненно, что непонятность Больших Данных для лиц, принимающих решения, в том числе и у нас, принципи- альное отличие технологий Больших Данных от того, что было раньше, стали одними из важных причин, почему Россия и целый ряд других стран, располагающих всеми необходимыми предпосылками для использования этих технологий, на сегодняшний день отстают в гонке циф- ровых вооружений.
Чтобы разобраться с тем, что такое Большие Данные и в чем принципиальная новизна их технологий, надо для начала отследить время возникновения термина. Сам по себе термин «Большие Данные» появился пять лет назад после публикации специального выпуска веду- щего американского научного журнала Nature, целиком посвященного этой теме. Затем тема, как по команде, была растиражирована сначала специализированными IT-изданиями, а затем подхвачена элитными СМИ, типа Foreign Affairs, Wall Street Journal и т.п.
Что же произошло пять лет назад? Есть ли какие-то документальные доказательства, что мы имеем дело с чем-то принципиально новым, а не с хорошо продуман- ной маркетинговой кампанией по принуждению прави- тельств и корпораций к покупке нового, дорогостояще- го софта? Ведь таких примеров в истории IT-индустрии было немало. В данном случае твердые документаль- ные доказательства перехода некоего Рубикона имеют место быть.
Во-первых, он связан с достижением интернетом уровня контентной зрелости и переходом в фазу ярко
Елена Ларина, Владимир Овчинский
КИБЕРВОЙНЫ XXI ВЕКА. ВОЗМОЖНОСТИ И РИСКИ ДЛЯ РОССИИ
выраженного экспоненциального развития. Эта фаза по- лучила название «информационный взрыв». Примерно, с 2008 года объем информации, вновь генерируемой в сети, стал удваиваться в течение примерно полутора- двух лет. На сегодняшний день можно привести следую- щие ключевые характеристики информационного взры- ва.
По данным компании Cisco, объем сгенерированных данных в 2012 году составил 2,8 зеттабайт и увеличится до 40 зеттабайт к 2020 г. Примерно треть передаваемых данных составляют автоматически сгенерированные данные, т.е. управляющие сигналы и информация, ха- рактеризующие работу машин, оборудования, устройств, присоединенных к интернету, или к интернету вещей. Причем с каждым годом доля интернета вещей или как его сегодня еще называют «интернета всего» растет в об- щем объеме мировых информационных потоков. На 40% ежегодно увеличивается объем корпоративной информа- ции, передаваемой и хранящейся в сети интернет.
Число пользователей интернета в мире к концу 2013 года составило 2,7 млрд. человек, или 39% населе- ния земли, а к 2016 году эта доля составит 65-75% насе- ления по данным Центра новостей ООН. Как ожидается, количество корпоративных пользователей интернета во всем мире увеличится с 1,6 миллиарда в 2011 году до 2,3 миллиарда в 2016 году.
Во-вторых, примерно в этот период времени появи- лись и стали доступны для корпоративных пользовате- лей принципиально новые IT-решения, позволяющие в режиме реального времени обрабатывать практически безразмерные массивы данных самого различного фор- мата. Причем эти решения сразу же стали реализовы- ваться не только как программные платформы, устанав- ливаемые на серверы, но и как облачные вычисления, где от организации не требовалось наличия дорогостоя- щей инфраструктуры компьютерного железа.
Глава 3 БОЛЬШИЕ ДАННЫЕ