Читаем Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики полностью

Время пришло!

Ваша организация должна начать процесс освоения больших данных уже сейчас. Пока что, если вы до сих пор игнорировали большие данные, то лишь упустили возможность быть в авангарде. Сегодня вы еще можете оказаться впереди всех. А если будете оставаться в стороне, через несколько лет окажетесь далеко позади. Если ваша организация уже занимается сбором данных и использует анализ в процессе принятия решений, то переход к большим данным не будет проблемой. Это просто расширение той деятельности, которой вы занимаетесь сегодня.

Фактически решение об использовании больших данных не должно стать проблемой. Большинство организаций уже подходят к сбору и анализу данных как к одной из основных частей своей стратегии. Хранилища данных, отчетность и анализ используются повсеместно. Если организация понимает, что данные представляют собой ценность, работа с большими данными будет лишь расширением ее деятельности. Не позволяйте скептикам убедить вас в том, что исследование больших данных не стоит затраченных усилий, или что их ценность еще не доказана, или что это слишком рискованно. Те же самые доводы помешали бы прогрессу, достигнутому за последние несколько десятилетий в области анализа данных. Обратите внимание сомневающихся на то, что работа с большими данными – это лишь продолжение того, что организация уже делает. Большие данные не представляют собой чего-то принципиально нового, и их не следует бояться.

<p>Структура больших данных</p>

В этой книге часто говорится о том, что данные могут быть структурированными, неструктурированными, полуструктурированными или даже мультиструктурированными. Большие данные нередко описываются как неструктурированные, а традиционные данные – как структурированные. Однако границы между ними не столь ясны, как можно понять из названия. Рассмотрим три типа структуры данных с точки зрения неспециалиста. Технические детали выходят за рамки данной книги.

Большая часть традиционных источников данных – полностью структурированные. Это означает, что традиционные источники предоставляют данные в четко предопределенном формате. Он не меняется день ото дня или в зависимости от обновления. В случае торговли акциями в первом поле может указываться дата в формате ДД/ММ/ГГГГ. Далее может идти 12-значный номер счета. Затем может быть указан символ акции, состоящий из трех-пяти знаков. И т. д. Каждый фрагмент используемой информации известен заранее, представлен в определенном формате и подчинен определенному порядку. Это облегчает работу.

Источники неструктурированных данных – а к ним относятся текстовые данные, видео– и аудиоданные – вы не можете контролировать. Вы получаете то, что получаете. Изображение подразумевает такой формат, при котором отдельные пикселы располагаются в строках, однако их взаимное расположение, определяющее то, что видит зритель, существенно различается в каждом конкретном случае. Приведенные примеры источников больших данных относятся к совершенно неструктурированным. Однако значительная часть данных относится к категории полуструктурированных.

Полуструктурированные данные подразумевают логическую схему и формат, который может быть понятным, но недружественным к пользователю. Иногда полуструктурированные данные называются мультиструктурированными. В потоке таких данных кроме ценных фрагментов информации может присутствовать множество ненужных и бесполезных данных. Чтение полуструктурированных данных с целью их анализа вовсе не так же просто, как файла определенного формата. Чтобы прочитать полуструктурированные данные, необходимо использовать сложные правила, которые динамически определяют, что следует делать после чтения каждого фрагмента информации.

Логи, собираемые в журнальных файлах, – прекрасный пример полуструктурированных данных. Они выглядят довольно уродливо, однако каждый фрагмент информации служит определенной цели. Служит ли любой из фрагментов журнала именно вашей цели – это совсем другой вопрос. На рис. 1.1 изображен пример необработанных данных интернет-журнала.

Рис. 1.1. Пример необработанных данных интернет-журнала

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Бюджетное право
Бюджетное право

В учебнике представлен комплекс академических знаний по бюджетному праву и современному государственному хозяйству, отражены новейшие тенденции в их развитии. В Общей части даются базовые понятия, рассматриваются функции и принципы бюджетного права, впервые подробно говорится о сроках в бюджетном праве и о его системе. В Особенную часть включены темы публичных расходов и доходов, государственного долга, бюджетного устройства, бюджетного процесса и финансового контроля. Особое внимание уделено вопросам, которые совсем недавно вошли в орбиту бюджетного права: стратегическому планированию, контрактной системе, суверенным фондам, бюджетной ответственности.Темы учебника изложены в соответствии с программой базового курса «Бюджетное право» НИУ ВШЭ. К каждой теме прилагаются контрольные вопросы, список рекомендуемой научной литературы для углубленного изучения, а также учебные схемы для лучшего усвоения материала.Для студентов правовых и экономических специальностей, аспирантов, преподавателей и всех, кто интересуется проблемами публичных финансов и публичного права.

Дмитрий Львович Комягин , Дмитрий Пашкевич

Экономика / Юриспруденция / Учебники и пособия ВУЗов / Образование и наука