Во-первых, информация должна быть полной. В работу нужно брать все, что доступно на настоящий момент, без купюр. Стоит пропустить какой-нибудь массив данных — потом непременно окажется, что именно в нем было все самое интересное и нужное. Биологи просматривают данные абсолютно всех экспериментов, геологи анализируют все пробы, а историки просматривают все архивы и доступные летописные списки. Также информация должна быть актуальной, достоверной, релевантной.
Во-вторых, информацию нужно систематизировать, говоря простым языком, разложить по полочкам. Как бы ни громаден был массив данных, систематизация поможет обработать его без потерь. Систематизированная информация — это уже половина исследования. Разработка принципа систематизации — обязательный этап при первоначальной обработке данных. Даже не самая оптимальная система лучше, чем ее полное отсутствие.
В-третьих. Необходимо подчинить информацию принципу иерархии. Выделить главное и отсеять второстепенное. Выделение главного — это определение узловых точек системы, определяющих ее качество как целого. Так историки ищут протограф всех летописных изводов и сосредотачивают главное внимание на нем, не утрачивая, однако, видения всего массива информации.
Четвертое правило — последовательность. Козьма Прутков писал: «Плюнь тому в глаза, кто скажет, что можно объять необъятное!» Но если работать системно и целенаправленно, это можно сделать. Никто не способен съесть слона целиком, но если откусывать каждый день по кусочку, можно поглотить целое слоновье стадо. То же и с информацией. Заранее намеченный план, выделение четких этапов работы позволяют преодолеть любой путь.
Но традиционные подходы к работе с информацией становятся непригодны, когда приходится сталкиваться с обработкой и использованием так называемых Big Data (больших данных) — совокупности данных с возможным экспоненциальным ростом, которые слишком велики, слишком неформатированы или слишком неструктурированы для анализа привычными методами[655]. Термин «большие данные» ввел редактор журнала Nature Клиффорд Линч еще в 2008 году в спецвыпуске, посвященном взрывному росту мировых объемов информации. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.
По данным компании IBS, к 2003 году мир уже накопил 5 эксабайт данных (это эквивалентно 5 млрд гигабайтов). Через пять лет этот объем вырос в 37 раз, а в мае 2015 года глобальное количество данных выросло еще в 36 раз. К 2020 году, по прогнозам, человечество должно накопить более 40 зеттабайтов, что эквивалентно 41 000 экзабайтов информации[656]. А к 2025 году эта цифра достигнет 163 зеттабайт (ZB), о чем говорится в докладе «Эпоха данных — 2025» (The Data Age 2025), который был подготовлен аналитиками компании IDC[657]. Если перевести эти цифры в более понятные категории, то 1 зеттабайт данных эквивалентен суммарной памяти 34,4 миллиарда самых современных смартфонов. А если бы каждый терабайт в зеттабайте был километром, то это было бы эквивалентно 1300 поездкам на Луну и обратно (76 800 километров)[658].
В отличие от традиционных методов работы с информацией, в случае Big Data обрабатывается сразу весь массив данных, причем происходит это в реальном времени, по мере поступления. Даты никак предварительно не сортируются и не структурируются, также невозможным представляется заранее задавать какие-либо гипотезы — происходит поиск корреляций по всему массиву[659].
Анализ Big Data позволяет увидеть определенные и незаметные закономерности, которые не может увидеть человек. Авторы исследования IDC выделяют несколько основных тенденций, определяющих развитие области больших данных на ближайшие годы[660], в том числе:
• Информация становятся «жизненно важным активом». К 2025 г. почти 20 % всех данных в глобальной информационной сфере будут играть критически важную роль в повседневной жизни, а около 10 % этих данных будут «сверхкритичными».
• На первый план выйдут вопросы информационной безопасности и защиты частной и конфиденциальной информации.
• К 2025 году почти 20 % генерируемых данных будут получены в режиме реального времени, и будут мгновенно доступны для пользователей в любое время и в любом месте.
• Главными источниками информации станут не пользователи, а компании, на чью долю придется до 60 % всех данных мира.
Поэтому, по мнению аналитиков, в будущем более важным станет уже не количество данных, а их качество. «Не все данные одинаково важны, а без контекста они и вовсе бесполезны. В этот период перемен лидерство будет принадлежать организациям, которые сумеют определить наиболее критичные подгруппы информации с максимальным влиянием на нужную сферу деятельности и сосредоточатся именно на них»[661].
Жизнь в безбрежном потоке информации диктует нам главную задачу — уметь среди информационного шума различить важную для нас информацию, и, бережно очистив ее от искажений, недостоверных фактов и субъективных мнений, использовать на благо себе.