Читаем Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики полностью

Время пришло!

Ваша организация должна начать процесс освоения больших данных уже сейчас. Пока что, если вы до сих пор игнорировали большие данные, то лишь упустили возможность быть в авангарде. Сегодня вы еще можете оказаться впереди всех. А если будете оставаться в стороне, через несколько лет окажетесь далеко позади. Если ваша организация уже занимается сбором данных и использует анализ в процессе принятия решений, то переход к большим данным не будет проблемой. Это просто расширение той деятельности, которой вы занимаетесь сегодня.

Фактически решение об использовании больших данных не должно стать проблемой. Большинство организаций уже подходят к сбору и анализу данных как к одной из основных частей своей стратегии. Хранилища данных, отчетность и анализ используются повсеместно. Если организация понимает, что данные представляют собой ценность, работа с большими данными будет лишь расширением ее деятельности. Не позволяйте скептикам убедить вас в том, что исследование больших данных не стоит затраченных усилий, или что их ценность еще не доказана, или что это слишком рискованно. Те же самые доводы помешали бы прогрессу, достигнутому за последние несколько десятилетий в области анализа данных. Обратите внимание сомневающихся на то, что работа с большими данными – это лишь продолжение того, что организация уже делает. Большие данные не представляют собой чего-то принципиально нового, и их не следует бояться.

Структура больших данных

В этой книге часто говорится о том, что данные могут быть структурированными, неструктурированными, полуструктурированными или даже мультиструктурированными. Большие данные нередко описываются как неструктурированные, а традиционные данные – как структурированные. Однако границы между ними не столь ясны, как можно понять из названия. Рассмотрим три типа структуры данных с точки зрения неспециалиста. Технические детали выходят за рамки данной книги.

Большая часть традиционных источников данных – полностью структурированные. Это означает, что традиционные источники предоставляют данные в четко предопределенном формате. Он не меняется день ото дня или в зависимости от обновления. В случае торговли акциями в первом поле может указываться дата в формате ДД/ММ/ГГГГ. Далее может идти 12-значный номер счета. Затем может быть указан символ акции, состоящий из трех-пяти знаков. И т. д. Каждый фрагмент используемой информации известен заранее, представлен в определенном формате и подчинен определенному порядку. Это облегчает работу.

Источники неструктурированных данных – а к ним относятся текстовые данные, видео– и аудиоданные – вы не можете контролировать. Вы получаете то, что получаете. Изображение подразумевает такой формат, при котором отдельные пикселы располагаются в строках, однако их взаимное расположение, определяющее то, что видит зритель, существенно различается в каждом конкретном случае. Приведенные примеры источников больших данных относятся к совершенно неструктурированным. Однако значительная часть данных относится к категории полуструктурированных.

Полуструктурированные данные подразумевают логическую схему и формат, который может быть понятным, но недружественным к пользователю. Иногда полуструктурированные данные называются мультиструктурированными. В потоке таких данных кроме ценных фрагментов информации может присутствовать множество ненужных и бесполезных данных. Чтение полуструктурированных данных с целью их анализа вовсе не так же просто, как файла определенного формата. Чтобы прочитать полуструктурированные данные, необходимо использовать сложные правила, которые динамически определяют, что следует делать после чтения каждого фрагмента информации.

Логи, собираемые в журнальных файлах, – прекрасный пример полуструктурированных данных. Они выглядят довольно уродливо, однако каждый фрагмент информации служит определенной цели. Служит ли любой из фрагментов журнала именно вашей цели – это совсем другой вопрос. На рис. 1.1 изображен пример необработанных данных интернет-журнала.


Рис. 1.1. Пример необработанных данных интернет-журнала

Перейти на страницу:

Похожие книги

Управление рисками
Управление рисками

Harvard Business Review – ведущий деловой журнал с многолетней историей. В этот сборник вошли лучшие статьи авторов HBR на тему риск-менеджмента.Инсайдерские атаки, саботаж, нарушение цепочек поставок, техногенные катастрофы и политические кризисы влияют на устойчивость организаций. Пытаясь их предотвратить, большинство руководителей вводят все новые и новые правила и принуждают сотрудников их выполнять. Однако переоценка некоторых рисков и невозможность предусмотреть скрытые угрозы приводят к тому, что компании нерационально расходуют ресурсы, а это может нанести серьезный, а то и непоправимый ущерб бизнесу. Прочитав этот сборник, вы узнаете о категориях рисков и внедрении процессов по управлению ими, научитесь использовать неопределенность для прорывных инноваций и сможете избежать распространенных ошибок прогнозирования, чтобы получить конкурентное преимущество.Статьи Нассима Талеба, Кондолизы Райс, Роберта Каплана и других авторов HBR помогут вам выстроить эффективную стратегию управления рисками и подготовиться к будущим вызовам.Способность компании противостоять штормам во многом зависит от того, насколько серьезно лидеры воспринимают свою функцию управления рисками в то время, когда светит солнце и горизонт чист.Иногда попытки уклониться от риска в действительности его увеличивают, а готовность принять на себя больше риска позволяет более эффективно им управлять.Все организации стремятся учиться на ошибках. Немногие ищут возможность почерпнуть что-то из событий, которые могли бы закончиться плохо, но все обошлось благодаря удачному стечению обстоятельств. Руководители должны понимать и учитывать: если люди спаслись, будучи на волосок от гибели, они склонны приписывать это устойчивости системы, хотя столь же вероятно, что сама эта ситуация сложилась из-за уязвимости системы.Для когоДля руководителей, глав компаний, генеральных директоров и собственников бизнеса.

Harvard Business Review (HBR) , Сергей Каледин , Тулкин Нарметов

Карьера, кадры / Экономика / Менеджмент / Финансы и бизнес
Как устроен мир
Как устроен мир

Если судить по энергии, размаху; новизне и влиянию его идей, Ноам Хомский — возможно, самый значительный из живущих сегодня интеллектуалов«Нью-Йорк таймс»Ноам Хомский — мирно известный американский лингвист, оказавший огромное влияние на развитие науки о языке, публицист, психолог, преподаватель Массачусетского технологического института.Свободного рынка не существует, поскольку мировую экономику захватили корпорации, зависящие от субсидий государства.Внешняя политика США нацелена прежде всего на изменение окружающего мира в их собственных интересах. Они используют военные и финансовые средства даже в тех регионах, где у них нет особых экономических интересов.Внутренняя политика США направлена на удержание в повиновении населения и на перераспределение доходов в пользу крупных частных собственников.Ноам Хомский — известный своими леворадикальными взглядами публицист и ярый критик политической и экономической систем США — доказывает это на конкретных примерах. С ним многие не согласны.Чью сторону принять — решать читателю.Печатается пиратским сообществом без разрешения автора и литературных агентств.

Ноам Хомский

Экономика
Как Америка стала мировым лидером
Как Америка стала мировым лидером

Как Америка стала мировым лидером? Конечно же, благодаря предприимчивости, свободе, демократичности и трудолюбию американцев. Однако это лишь часть ответа. Вторая кроется в объективных силах и законах развития. Именно они позволили Америке преодолеть самую грандиозную экономическую катастрофу XX века, получившую название Великой депрессии и встать во главе человеческого развития.Сегодня человечество вновь переживает трудные времена, которые по своим масштабам грозят превзойти даже последствия мирового кризиса 1930-х годов. Поэтому ответ на вопрос «как Америка стала мировым лидером?» представляет собой далеко не праздный интерес, он дает возможность взглянуть из прошлого на наши дни и оценить возможности выхода из Великой Рецессии современности.Настоящая книга является продолжением серии «Политэкономия войны» В. Галина, посвященной исследованию политэкономической истории возникновения Второй мировой войны.

Василий Васильевич Галин

Экономика