Читаем Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики полностью

Какую структуру имеют ваши большие данные?

Многие источники больших данных на самом деле являются полуструктурированными или мультиструктурированными, а не совсем неструктурированными. Такие данные подразумевают логическую схему, которая позволяет извлечь информацию для анализа. С ними просто сложнее работать, чем с традиционными источниками структурированных данных. Использование полуструктурированных данных требует дополнительного времени и усилий для того, чтобы определить наилучший способ их обработки.

Хотя на первый взгляд может показаться иначе, данные интернет-журнала подчинены определенной логике. В них присутствуют поля, разделители и значения, как и в структурированном источнике. При этом они не согласованы друг с другом и не представляют собой набор. Текст журнала, сгенерированный только что щелчком кнопкой мыши на сайте, может быть длиннее или короче, чем текст, сгенерированный щелчком кнопкой мыши на другой странице минуту назад. И все-таки необходимо понять, что полуструктурированные данные не лишены логики. Вполне возможно найти взаимосвязь между различными их фрагментами – просто это потребует больше усилий, чем в случае со структурированными данными.

Профессиональных аналитиков больше тревожат неструктурированные данные, чем полуструктурированные. Возможно, им придется побороться с полуструктурированными данными, чтобы подчинить их своей воле, но они это сделают. Они смогут привести полуструктурированные данные в хорошо структурированную форму и включить в свои аналитические процессы. По-настоящему неструктурированные данные приручить гораздо сложнее, и это будет оставаться головной болью для организаций по мере того, как они будут учиться справляться с полуструктурированными данными.

Исследование больших данных

Начать работу с большими данными несложно. Просто соберите их и поручите команде аналитиков вашей организации разобраться в том, чем они могут быть вам полезны. Для начала не понадобится обеспечивать постоянный поток данных. Все, что вам нужно, – это позволить аналитической команде применить свои инструменты и подходы к некоторому набору данных, чтобы они могли начать процесс исследования. Это именно то, чем занимаются аналитики и ученые в области науки о данных.

Существует старое правило: 70–80 % времени уходит на сбор и подготовку данных и только 20–30 % – на их анализ. В начале работы с большими данными можно ожидать более низких значений. Вероятно, в самом начале аналитики будут тратить 95 %, если не все 100 %, времени только на то, чтобы разобраться в источнике данных, прежде чем они смогут решить, как его следует анализировать.

Важно понимать, что это нормально. Выяснение того, что собой представляет источник данных, – важная часть процесса анализа. Это, может быть, и скучновато, однако итеративная загрузка данных[4], изучение того, как они выглядят, а также настройка процесса загрузки с целью более точного извлечения нужных данных критически важны. Без выполнения этих действий невозможно перейти к самому процессу анализа.

Приносите пользу по ходу дела

Чтобы решить, как использовать источник больших данных на благо своего бизнеса, придется потратить немало усилий. Аналитики и их работодатели должны подумать, как обеспечить небольшие быстрые достижения. Это продемонстрирует организации прогресс и обеспечит поддержку дальнейших действий. Такие достижения могут генерировать солидную отдачу от инвестиций.

Перейти на страницу:

Похожие книги

Управление рисками
Управление рисками

Harvard Business Review – ведущий деловой журнал с многолетней историей. В этот сборник вошли лучшие статьи авторов HBR на тему риск-менеджмента.Инсайдерские атаки, саботаж, нарушение цепочек поставок, техногенные катастрофы и политические кризисы влияют на устойчивость организаций. Пытаясь их предотвратить, большинство руководителей вводят все новые и новые правила и принуждают сотрудников их выполнять. Однако переоценка некоторых рисков и невозможность предусмотреть скрытые угрозы приводят к тому, что компании нерационально расходуют ресурсы, а это может нанести серьезный, а то и непоправимый ущерб бизнесу. Прочитав этот сборник, вы узнаете о категориях рисков и внедрении процессов по управлению ими, научитесь использовать неопределенность для прорывных инноваций и сможете избежать распространенных ошибок прогнозирования, чтобы получить конкурентное преимущество.Статьи Нассима Талеба, Кондолизы Райс, Роберта Каплана и других авторов HBR помогут вам выстроить эффективную стратегию управления рисками и подготовиться к будущим вызовам.Способность компании противостоять штормам во многом зависит от того, насколько серьезно лидеры воспринимают свою функцию управления рисками в то время, когда светит солнце и горизонт чист.Иногда попытки уклониться от риска в действительности его увеличивают, а готовность принять на себя больше риска позволяет более эффективно им управлять.Все организации стремятся учиться на ошибках. Немногие ищут возможность почерпнуть что-то из событий, которые могли бы закончиться плохо, но все обошлось благодаря удачному стечению обстоятельств. Руководители должны понимать и учитывать: если люди спаслись, будучи на волосок от гибели, они склонны приписывать это устойчивости системы, хотя столь же вероятно, что сама эта ситуация сложилась из-за уязвимости системы.Для когоДля руководителей, глав компаний, генеральных директоров и собственников бизнеса.

Harvard Business Review (HBR) , Сергей Каледин , Тулкин Нарметов

Карьера, кадры / Экономика / Менеджмент / Финансы и бизнес
Как устроен мир
Как устроен мир

Если судить по энергии, размаху; новизне и влиянию его идей, Ноам Хомский — возможно, самый значительный из живущих сегодня интеллектуалов«Нью-Йорк таймс»Ноам Хомский — мирно известный американский лингвист, оказавший огромное влияние на развитие науки о языке, публицист, психолог, преподаватель Массачусетского технологического института.Свободного рынка не существует, поскольку мировую экономику захватили корпорации, зависящие от субсидий государства.Внешняя политика США нацелена прежде всего на изменение окружающего мира в их собственных интересах. Они используют военные и финансовые средства даже в тех регионах, где у них нет особых экономических интересов.Внутренняя политика США направлена на удержание в повиновении населения и на перераспределение доходов в пользу крупных частных собственников.Ноам Хомский — известный своими леворадикальными взглядами публицист и ярый критик политической и экономической систем США — доказывает это на конкретных примерах. С ним многие не согласны.Чью сторону принять — решать читателю.Печатается пиратским сообществом без разрешения автора и литературных агентств.

Ноам Хомский

Экономика
Как Америка стала мировым лидером
Как Америка стала мировым лидером

Как Америка стала мировым лидером? Конечно же, благодаря предприимчивости, свободе, демократичности и трудолюбию американцев. Однако это лишь часть ответа. Вторая кроется в объективных силах и законах развития. Именно они позволили Америке преодолеть самую грандиозную экономическую катастрофу XX века, получившую название Великой депрессии и встать во главе человеческого развития.Сегодня человечество вновь переживает трудные времена, которые по своим масштабам грозят превзойти даже последствия мирового кризиса 1930-х годов. Поэтому ответ на вопрос «как Америка стала мировым лидером?» представляет собой далеко не праздный интерес, он дает возможность взглянуть из прошлого на наши дни и оценить возможности выхода из Великой Рецессии современности.Настоящая книга является продолжением серии «Политэкономия войны» В. Галина, посвященной исследованию политэкономической истории возникновения Второй мировой войны.

Василий Васильевич Галин

Экономика