Вместе с тем, объемы данных росли лавинообразными темпами: пользователи социальных сетей генерировали огромные объемы информации, корпорации копили сведения о клиентах, индустриальные предприятия использовали датчики для контроля технологических процессов, в дополнение к ним в широкой эксплуатации появились домашние приборы и автоматизированных системы, которые без участия человека используют интернет, автоматически отсылают информацию о своем состоянии, получают и обрабатывают команды пользователей и тем самым также порождают огромные объемы данных.
Усиливалась и потребность в анализе этих данных – постоянно шел поиск ответа на бизнес-задачи: предсказание потребительского поведения с целью повысить эффективность маркетинговой активности; цифровое моделирование индустриальных объектов, с целью снизить затраты на дорогостоящие испытания; быстрый анализ данных с погодных датчиков для обеспечения безопасности полетов и др.
К 2008 г. технологический прорыв в области микропроцессорных технологий и в производстве систем хранения данных на порядки снизил стоимость хранения и обработки. Это упростило и удешевило доступ к вычислительным ресурсам до недостижимого прежде уровня, что сделало возможным дальнейший прогресс в развитии аналитических систем.
Важнейшей вехой в истории систем класса Big Data является развитие технологии кластеризации, реализующей горизонтальное масштабирование – объединение разрозненных единиц вычислительной техники в общую вычислительную систему с единым управлением.
Повысилась доступность систем Big Data для широкого круга разработчиков программного обеспечения благодаря изменению бизнес-моделей глобальных технологических компаний: появились трансконтинентальные IT-инфраструктуры, позволяющие использовать практически неограниченные вычислительные мощности и системы хранения без первичных инвестиций – на условиях оплаты аренды ресурса с почасовой тарификацией. Такого рода бизнес-модели сняли финансовые ограничения для малых технологических компаний и дали им возможность активно разрабатывать аналитические инструменты для широкого круга потребителей.
Предпосылками активного развития систем Big Data стали:
– рост объема цифровой информации и потребность коммерческих и государственных организаций в результатах ее анализа;
– технологический прорыв в области микроэлектроники;
– деятельность саморегулирующихся сообществ разработчиков программного обеспечения;
– появление новых бизнес-моделей коммерческих организаций, обеспечивающих широкий доступ к вычислительным ресурсам.
Основное свойство систем Big Data – обработка крайне больших массивов данных объем которых постоянно и с большой скоростью увеличивается. Речь идет о данных миллионов финансовых операций, десятках миллионов переходов на веб-сайтах интернет-магазинов, сотен миллионов значений датчиков погоды, снимающих показания по всему миру, миллиардов записей пользователей на персональных страничках социальных сетей, десятков миллиардов действий пользователей поисковых систем и мобильных приложений.
Разнородность данных – это возможность обработки в системе разнообразных типов данных и их структур. Это свойство характеризует возможность системы проводить анализ неструктурированных данных: «сырых» текстов, медиафайлов – аудиофайлов, видеофайлов и файлов изображений; слабоструктурированной информации: например, новостных каналов, электронных таблиц; структурированных данных реляционных СУБД и данных, полученных в виде структурированного ответа на запрос на специализированных языках работы с данными.
Скорость обработки означает возможность системы принимать и обрабатывать данные в необходимом объеме за ограниченное время. Многие системы Big Data предназначены для сбора информации из большого количества источников в режиме реального времени и их анализа также в режиме реального времени. Пример – медицинские устройства, предназначенные для сбора данных о здоровье и мониторинга состояния пациентов. Предназначение и важность этих систем требует собирать, анализировать эти данные и затем передавать результаты медицинскому персоналу за минимальное количество времени. Необходимость реализации интернета вещей медицинского оборудования создает запрос на обеспечение высокой скорости передачи и обработки данных.