Читаем О чем говорят цифры. Как понимать и использовать данные полностью

Структурированные и неструктурированные данные. В течение долгого времени почти все количественные аналитики работали со структурированными данными: данными в числовой форме, которые легко можно представить в табличном виде. Независимо от того, проводится ли анализ с помощью электронных таблиц, мощной статистической программы или старомодного калькулятора, все равно данные структурируются при помощи строк и столбцов (обычно в строках отражаются события или наблюдения, а в столбцах – значения соответствующих переменных). Все, что вам оставалось выяснить, это сколько наблюдений следует сделать и сколько знаков после запятой показывать в таблице.

Но положение дел стало меняться с распространением в последние годы XX века анализа текстов. На примере истории с письмами Марка Твена мы показали, что в тексте можно искать не только числа, но и логические закономерности. Типичный вопрос: как часто повторяется в тексте то или иное слово? Текст представляет собой пример неструктурированных данных. Поскольку он состоит из определенной последовательности слов, его трудно разложить по строкам и столбцам таблицы. Однако лишь после 2000 года резко возросли объем и разнообразие неструктурированных данных. Именно этот год стал началом массированного использования интернета, когда компании вроде Recorded Future приступили к анализу огромных массивов данных в виде текста, изображений и щелчков мышки. Телекоммуникации и социальные медиа поставляют огромные объемы информации социальной направленности. Объем аудио– и видеоданных, которые хотели проанализировать организации, рос в геометрической прогрессии. Революция в генетике привела к необходимости анализировать большие объемы сведений о генах.

Сейчас мы официально вступили в век больших данных, когда обработка нескольких петабайт информации стала для организаций рутинным делом. (1 петабайт равен 1000 терабайт, или 1015 байт, то есть 1 000 000 000 000 000 единиц информации.) Например, хранилище информации eBay имеет объем более чем в 40 петабайт. Каждое ваше нажатие на изображение видеокамеры или украшенной цветочным орнаментом вазы фиксируется в общей базе данных.

Анализ данных такого рода имеет существенные отличия от анализа структурированных количественных данных, особенно на первых шагах. Во многих случаях, прежде чем приступить к подсчету, требуется провести тщательную фильтрацию и классификацию, а также другие подготовительные операции. Специалист по базам данных – это человек, глубоко разбирающийся не только в анализе данных, но и в процедурах их подготовки к проведению анализа. Такие программные инструменты, как Hadoop и MapReduce, получают все большее распространение в организациях, сталкивающихся с необходимостью анализа больших данных. Они предназначены для такой фильтрации и классификации данных, которая позволит применять количественные методы анализа. Видео– и аудиоинформация также требует серьезной обработки, прежде чем можно будет ее анализировать количественными методами. Во многих случаях после подготовки организация будет анализировать эти массивы данных при помощи традиционных статистических приложений.

Билл Франкс из компании Teradata в своем посте в блоге Международного института аналитики подчеркивает[37]:

Перейти на страницу:

Похожие книги

Психология согласия
Психология согласия

Если и существует на свете книга, которая может стать причиной экстраординарного рывка в карьере и бизнесе, вы держите ее в руках. Автор «Психологии согласия» Роберт Чалдини, самый цитируемый в мире социальный психолог, много лет, словно тайный агент, внедрялся в отделы продаж крупных корпораций. Он наблюдал за работой лучших из лучших, пока не пришел к неожиданному выводу. Гении переговоров интуитивно пользуются приемами, позволяющими добиться нужного результата, еще до начала процесса убеждения. Только представьте себе, вы получаете согласие руководителя повысить вам зарплату, едва войдя к нему в кабинет. Или заручаетесь поддержкой партнера в рискованном проекте, даже не начав его уговаривать. Или добиваетесь от клиента готовности заплатить максимально высокую цену, только-только приступив к переговорам. Это не шутка и не маркетинговая уловка. Это революционная методика, разработанная блестящим ученым и не менее блестящим практиком.В ней вы найдете:117 воодушевляющих примеров из реальной бизнес-практики и личного опыта автора;7 принципов, которые раскрывают механизмы влияния и убеждения;1 грандиозную идею, основанную на многолетних наблюдениях и масштабных социальных исследованиях.

Роберт Бено Чалдини

Деловая литература
Что самые успешные люди делают до завтрака. Как изменить к лучшему свое утро… и жизнь
Что самые успешные люди делают до завтрака. Как изменить к лучшему свое утро… и жизнь

Президенты, блестящие менеджеры и харизматичные лидеры, визионеры и гении – в чем секрет их успеха?Пока большинство пытается с утра выбраться из-под одеяла, эти люди уже начали свой день и побеждают в борьбе за карьеру и личную жизнь.Они на встречах, которые приносят миллионы от слияний и поглощений. Они на школьных выступлениях своих детей. Они на утренней пробежке. Они отключили телефон в субботу. Они фонтанируют идеями и знают, как «зажечь» свою командуОпираясь на истории из жизни и научные исследования, эксперт по тайм-менеджменту Лора Вандеркам рассказывает, что и как по-настоящему успешные люди делают по утрам для достижения того, что другим кажется невозможным.А вы не боитесь проспать свой шанс?

Екатерина Королева , Лора Вандеркам

Деловая литература / Публицистика / Самосовершенствование / Документальное / Финансы и бизнес