Читаем Аналитическая культура. От сбора данных до бизнес-результатов полностью

Данные должны быть согласованными. Например, адрес конкретного клиента в одной базе данных должен совпадать с адресом этого же клиента в другой базе. При наличии разногласий один из источников следует считать основным или вообще не использовать сомнительные данные до устранения причины разногласий.


Однозначность

Каждое поле, содержащее индивидуальные данные, имеет определенное, недвусмысленное значение. Четко названные поля в совокупности со словарем базы данных (подробнее об этом чуть позже) помогают обеспечить качество данных.


Релевантность

Данные зависят от характера анализа. Например, исторический экскурс по биржевым ценам Американской ассоциации землевладельцев может быть интересным, но при этом не иметь никакого отношения к анализу фьючерсных контрактов на грудинную свинину.


Надежность

Данные должны быть одновременно полными (то есть содержать все сведения, которые вы ожидали получить) и точными (то есть отражать достоверную информацию).


Своевременность

Между сбором данных и их доступностью для использования в аналитической работе всегда проходит время. На практике это означает, что аналитики получают данные как раз вовремя, чтобы завершить анализ к необходимому сроку. Недавно мне довелось узнать об одной крупной корпорации, у которой время ожидания при работе с хранилищем данных составляет до одного месяца. При такой задержке данные становятся практически бесполезными (при сохранении издержек на их хранение и обработку), их можно использовать только в целях долгосрочного стратегического планирования и прогнозирования.


Ошибка всего в одном из этих аспектов может привести к тому, что данные окажутся частично или полностью непригодными к использованию или, хуже того, будут казаться достоверными, но приведут к неправильным выводам.

Далее мы остановимся на процессах и проблемах, способных ухудшить качество данных, на некоторых подходах для определения и решения этих вопросов, а также поговорим о том, кто отвечает за качество данных.

ДАННЫЕ С ОШИБКАМИ

Ошибки могут появиться в данных по многим причинам и на любом этапе сбора информации. Давайте проследим весь жизненный цикл данных с момента их генерации и до момента анализа и посмотрим, как на каждом из этапов в данные могут закрадываться ошибки.

В данных всегда больше ошибок, чем кажется. По результатам одного из исследований[23], ежегодно американские компании терпят ущерб почти в 600 млн долл. из-за ошибочных данных или данных плохого качества (это 3,5 % ВВП!).

Во многих случаях аналитики лишены возможности контролировать сбор и первичную обработку данных. Обычно они бывают одним из последних звеньев в длинной цепочке по генерации данных, их фиксированию, передаче, обработке и объединению. Тем не менее важно понимать, какие проблемы с качеством данных могут возникнуть и как их потенциально можно разрешить.

Цель этой части книги – выделить общие проблемы с качеством данных и возможные подводные камни, показать, как избежать этих проблем и как понять, что эти проблемы присутствуют в наборе данных. Более того, чуть позже вы поймете, что это призыв ко всем специалистам, работающим с данными, по возможности активно участвовать в проверке качества данных.

Итак, начнем с самого начала – с источника данных. Почему в данные могут закрасться ошибки и как с этим бороться?

ГЕНЕРАЦИЯ ДАННЫХ

Генерация данных – самый очевидный источник возможных ошибок, которые могут появиться в результате технологического (приборы), программного (сбои) или человеческого факторов.

В случае технологического фактора приборы могут быть настроены неправильно, что может сказаться на полученных данных. Например, термометр показывает 35 °C вместо 33 °C на самом деле. Это легко исправить: прибор или датчик можно настроить по другому, «эталонному», прибору, отражающему достоверные данные.

Иногда приборы бывают ненадежными. Мне довелось работать в грантовом проекте Агентства передовых оборонных исследовательских проектов Министерства обороны США (DARPA), посвященном групповой робототехнике. В нашем распоряжении была группа простейших роботов, задача которых заключалась в совместном картографировании местности. Сложность состояла в том, что инфракрасные датчики, установленные на роботах, были очень плохого качества. Вместо того чтобы сосредоточиться на разработке децентрализованного алгоритма для нанесения здания на карту, большую часть времени я потратил на работу с алгоритмическими фильтрами, пытаясь справиться с качеством информации от этих датчиков, измерявших расстояние до ближайшей стены или до других роботов. Значения сбрасывались, или показатель расстояния до ближайшей стены мог неожиданно измениться на целый метр (неточность 50 %), притом что робот оставался неподвижным. Информации от этих датчиков просто нельзя было верить.

Перейти на страницу:

Похожие книги

Кодекс состоятельных. Живи, как 1% населения в мире
Кодекс состоятельных. Живи, как 1% населения в мире

Колумнист The New York Times Пол Салливан на протяжении целого десятилетия изучал привычки богатых людей и пытался сформулировать основополагающие принципы их успеха. Чем отличается мировоззрение супербогачей от философии жизни простых людей? Благодаря чему они являются теми, кто они есть? И возможно ли, следуя их правилам, проложить путь на вершину олимпа?Из книги вы узнаете:– Какие ценности являются лучшей инвестицией?– Как извлечь пользу из поражений?– Как тратить много, но не разоряться?Эта книга – квинтэссенция правил жизни успешных людей, после прочтения которых вы осознаете: не важно, в каком городе или семье вы родились, какое образование получили, все зависит только от вас, получите вы все что хотите или останетесь на задворках жизни.

Пол Салливан

Деловая литература / О бизнесе популярно / Финансы и бизнес
77 секретов копирайтинга. Тексты, которые продают
77 секретов копирайтинга. Тексты, которые продают

Эта книга неслучайно называется «77 секретов копирайтинга». В ней вы действительно найдете эффективные инструменты и полезные сведения, о которых прежде не слышали, даже если посещали тренинги или слушали вебинары по копирайтингу. Вы познакомитесь с «фишками», которые помогут вам стать еще успешнее и писать яркие, запоминающиеся, мощно заряженные мотивацией тексты. С этого момента, когда вы начали читать эту книгу, я сочувствую вашим конкурентам, особенно если они отдавали копирайтинг на аутсорсинг. Скажем так, те недалекие люди, которые считают себя выше изучения копирайтинга, не понимают, насколько это важный навык – умение самостоятельно писать продающие тексты. Это часть вашей жизни, и доверять ее другим – все равно что доверять другим свидание с женщиной или кормление ребенка грудью. Удобный формат позволит вам держать книгу всегда под рукой и применять авторские советы в работе.

Андрей Алексеевич Парабеллум , Андрей Парабеллум

Карьера, кадры / Маркетинг, PR, реклама / О бизнесе популярно / Финансы и бизнес