Читаем Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики полностью

В-третьих, многие источники больших данных не замышлялись как дружественные к пользователю. Впрочем, некоторые из них вообще не замышлялись! Возьмем, к примеру, текстовые потоки от сайта социальных медиа. Пользователей невозможно убедить соблюдать определенные правила грамматики, синтаксиса или лексические нормы. Когда люди публикуют запись, вы получаете то, что получаете. Работать с такими данными в лучшем случае трудно, а в худшем – отвратительно. О текстовых данных говорится в главах 3 и 6. Большинство традиционных источников данных дружественны к пользователю. Например, системы для отслеживания транзакций предоставляют данные в понятной форме, что облегчает их загрузку и работу с ними. Частично это было продиктовано исторически сложившейся необходимостью в эффективном использовании пространства. Для избыточных данных просто не было места.

Большие данные бывают неприглядными

Традиционные источники данных с самого начала разрабатывались с учетом определенных требований. Каждый бит данных имел высокую ценность, иначе он не был бы учтен. Поскольку стоимость хранения данных стремится к нулю, источники больших данных, как правило, содержат все, что может быть использовано. Это означает, что при проведении анализа необходимо разбираться в огромном количестве хлама.

И, наконец, потоки больших данных далеко не всегда представляют собой особую ценность. Большая часть данных может быть вообще бесполезной. В журнале логов содержится как очень полезная информация, так и не имеющая ценности. Необходимо отсортировать мусор и извлечь ценные и релевантные фрагменты информации. Традиционные источники данных с самого начала разрабатывались так, чтобы содержать на 100 % релевантные данные. Это было связано с ограничениями масштабируемости: включение в поток данных чего-то неважного слишком дорого обходилось. Мало того что записи данных были предопределены заранее – каждый фрагмент данных имел высокую ценность. С тех пор изменилось одно важное обстоятельство: мы более не ограничены объемом носителя. Это привело к тому, что большие данные по умолчанию включают всю возможную информацию, а позже приходится разбираться в том, что же из собранного имеет значение. Зато есть гарантия, что ничего не будет упущено, но усложняет процесс анализа больших данных.

В чем сходство между большими данными и традиционными данными?

Любая животрепещущая тема вызывает различные, порой взаимоисключающие толкования. Существует мнение, что большие данные в корне изменят способы анализа и использования его результатов. Однако если вдуматься, это не так. Это как раз тот случай, когда шумиха выходит за рамки реальности.

Ни для кого не новость, что большой объем больших данных создает проблемы масштабируемости. Большинство новых источников данных поначалу считались большими и сложными. Большие данные – это просто очередная волна новых данных, которая раздвигает существующие пределы. Аналитики смогли приручить прошлые источники данных с учетом существовавших в то время ограничений, и большие данные тоже будут приручены. В конце концов, аналитики в течение длительного времени находились в авангарде изучения новых источников данных. Так и будет продолжаться.

Кто первым начал анализировать данные о телефонных звонках в телекоммуникационных компаниях? Аналитики. На своей первой работе я проводил анализ данных, записанных на магнитные ленты. В то время казалось, что данных было огромное количество. Кто первым начал анализировать данные с мест продаж в розничных магазинах? Аналитики. Сначала анализ данных о сотнях тысяч товаров в тысячах магазинов считался огромной проблемой. Сегодня это не так.

Профессионалы в области аналитики, которые первыми начали работать с этими источниками, имели дело с тем, что в то время считалось немыслимо большими объемами данных. Им необходимо было найти способ анализа и использования данных с учетом существующих в то время ограничений. Многие сомневались в том, что это возможно, а некоторые даже ставили под сомнение ценность таких данных. Это очень похоже на то, что происходит с большими данными сегодня, не так ли?

Перейти на страницу:

Похожие книги

Управление рисками
Управление рисками

Harvard Business Review – ведущий деловой журнал с многолетней историей. В этот сборник вошли лучшие статьи авторов HBR на тему риск-менеджмента.Инсайдерские атаки, саботаж, нарушение цепочек поставок, техногенные катастрофы и политические кризисы влияют на устойчивость организаций. Пытаясь их предотвратить, большинство руководителей вводят все новые и новые правила и принуждают сотрудников их выполнять. Однако переоценка некоторых рисков и невозможность предусмотреть скрытые угрозы приводят к тому, что компании нерационально расходуют ресурсы, а это может нанести серьезный, а то и непоправимый ущерб бизнесу. Прочитав этот сборник, вы узнаете о категориях рисков и внедрении процессов по управлению ими, научитесь использовать неопределенность для прорывных инноваций и сможете избежать распространенных ошибок прогнозирования, чтобы получить конкурентное преимущество.Статьи Нассима Талеба, Кондолизы Райс, Роберта Каплана и других авторов HBR помогут вам выстроить эффективную стратегию управления рисками и подготовиться к будущим вызовам.Способность компании противостоять штормам во многом зависит от того, насколько серьезно лидеры воспринимают свою функцию управления рисками в то время, когда светит солнце и горизонт чист.Иногда попытки уклониться от риска в действительности его увеличивают, а готовность принять на себя больше риска позволяет более эффективно им управлять.Все организации стремятся учиться на ошибках. Немногие ищут возможность почерпнуть что-то из событий, которые могли бы закончиться плохо, но все обошлось благодаря удачному стечению обстоятельств. Руководители должны понимать и учитывать: если люди спаслись, будучи на волосок от гибели, они склонны приписывать это устойчивости системы, хотя столь же вероятно, что сама эта ситуация сложилась из-за уязвимости системы.Для когоДля руководителей, глав компаний, генеральных директоров и собственников бизнеса.

Harvard Business Review (HBR) , Сергей Каледин , Тулкин Нарметов

Карьера, кадры / Экономика / Менеджмент / Финансы и бизнес
Как устроен мир
Как устроен мир

Если судить по энергии, размаху; новизне и влиянию его идей, Ноам Хомский — возможно, самый значительный из живущих сегодня интеллектуалов«Нью-Йорк таймс»Ноам Хомский — мирно известный американский лингвист, оказавший огромное влияние на развитие науки о языке, публицист, психолог, преподаватель Массачусетского технологического института.Свободного рынка не существует, поскольку мировую экономику захватили корпорации, зависящие от субсидий государства.Внешняя политика США нацелена прежде всего на изменение окружающего мира в их собственных интересах. Они используют военные и финансовые средства даже в тех регионах, где у них нет особых экономических интересов.Внутренняя политика США направлена на удержание в повиновении населения и на перераспределение доходов в пользу крупных частных собственников.Ноам Хомский — известный своими леворадикальными взглядами публицист и ярый критик политической и экономической систем США — доказывает это на конкретных примерах. С ним многие не согласны.Чью сторону принять — решать читателю.Печатается пиратским сообществом без разрешения автора и литературных агентств.

Ноам Хомский

Экономика
Как Америка стала мировым лидером
Как Америка стала мировым лидером

Как Америка стала мировым лидером? Конечно же, благодаря предприимчивости, свободе, демократичности и трудолюбию американцев. Однако это лишь часть ответа. Вторая кроется в объективных силах и законах развития. Именно они позволили Америке преодолеть самую грандиозную экономическую катастрофу XX века, получившую название Великой депрессии и встать во главе человеческого развития.Сегодня человечество вновь переживает трудные времена, которые по своим масштабам грозят превзойти даже последствия мирового кризиса 1930-х годов. Поэтому ответ на вопрос «как Америка стала мировым лидером?» представляет собой далеко не праздный интерес, он дает возможность взглянуть из прошлого на наши дни и оценить возможности выхода из Великой Рецессии современности.Настоящая книга является продолжением серии «Политэкономия войны» В. Галина, посвященной исследованию политэкономической истории возникновения Второй мировой войны.

Василий Васильевич Галин

Экономика