Читаем Аналитическая культура полностью

Данные должны быть согласованными. Например, адрес конкретного клиента в одной базе данных должен совпадать с адресом этого же клиента в другой базе. При наличии разногласий один из источников следует считать основным или вообще не использовать сомнительные данные до устранения причины разногласий.


Однозначность

Каждое поле, содержащее индивидуальные данные, имеет определенное, недвусмысленное значение. Четко названные поля в совокупности со словарем базы данных (подробнее об этом чуть позже) помогают обеспечить качество данных.


Релевантность

Данные зависят от характера анализа. Например, исторический экскурс по биржевым ценам Американской ассоциации землевладельцев может быть интересным, но при этом не иметь никакого отношения к анализу фьючерсных контрактов на грудинную свинину.


Надежность

Данные должны быть одновременно полными (то есть содержать все сведения, которые вы ожидали получить) и точными (то есть отражать достоверную информацию).


Своевременность

Между сбором данных и их доступностью для использования в аналитической работе всегда проходит время. На практике это означает, что аналитики получают данные как раз вовремя, чтобы завершить анализ к необходимому сроку. Недавно мне довелось узнать об одной крупной корпорации, у которой время ожидания при работе с хранилищем данных составляет до одного месяца. При такой задержке данные становятся практически бесполезными (при сохранении издержек на их хранение и обработку), их можно использовать только в целях долгосрочного стратегического планирования и прогнозирования.


Ошибка всего в одном из этих аспектов может привести к тому, что данные окажутся частично или полностью непригодными к использованию или, хуже того, будут казаться достоверными, но приведут к неправильным выводам.

Далее мы остановимся на процессах и проблемах, способных ухудшить качество данных, на некоторых подходах для определения и решения этих вопросов, а также поговорим о том, кто отвечает за качество данных.

ДАННЫЕ С ОШИБКАМИ

Ошибки могут появиться в данных по многим причинам и на любом этапе сбора информации. Давайте проследим весь жизненный цикл данных с момента их генерации и до момента анализа и посмотрим, как на каждом из этапов в данные могут закрадываться ошибки.

В данных всегда больше ошибок, чем кажется. По результатам одного из исследований[23], ежегодно американские компании терпят ущерб почти в 600 млн долл. из-за ошибочных данных или данных плохого качества (это 3,5 % ВВП!).

Во многих случаях аналитики лишены возможности контролировать сбор и первичную обработку данных. Обычно они бывают одним из последних звеньев в длинной цепочке по генерации данных, их фиксированию, передаче, обработке и объединению. Тем не менее важно понимать, какие проблемы с качеством данных могут возникнуть и как их потенциально можно разрешить.

Цель этой части книги — выделить общие проблемы с качеством данных и возможные подводные камни, показать, как избежать этих проблем и как понять, что эти проблемы присутствуют в наборе данных. Более того, чуть позже вы поймете, что это призыв ко всем специалистам, работающим с данными, по возможности активно участвовать в проверке качества данных.

Итак, начнем с самого начала — с источника данных. Почему в данные могут закрасться ошибки и как с этим бороться?

ГЕНЕРАЦИЯ ДАННЫХ

Генерация данных — самый очевидный источник возможных ошибок, которые могут появиться в результате технологического (приборы), программного (сбои) или человеческого факторов.

В случае технологического фактора приборы могут быть настроены неправильно, что может сказаться на полученных данных. Например, термометр показывает 35 °C вместо 33 °C на самом деле. Это легко исправить: прибор или датчик можно настроить по другому, «эталонному», прибору, отражающему достоверные данные.

Иногда приборы бывают ненадежными. Мне довелось работать в грантовом проекте Агентства передовых оборонных исследовательских проектов Министерства обороны США (DARPA), посвященном групповой робототехнике. В нашем распоряжении была группа простейших роботов, задача которых заключалась в совместном картографировании местности. Сложность состояла в том, что инфракрасные датчики, установленные на роботах, были очень плохого качества. Вместо того чтобы сосредоточиться на разработке децентрализованного алгоритма для нанесения здания на карту, большую часть времени я потратил на работу с алгоритмическими фильтрами, пытаясь справиться с качеством информации от этих датчиков, измерявших расстояние до ближайшей стены или до других роботов. Значения сбрасывались, или показатель расстояния до ближайшей стены мог неожиданно измениться на целый метр (неточность > 50 %), притом что робот оставался неподвижным. Информации от этих датчиков просто нельзя было верить.

Перейти на страницу:

Все книги серии Бестселлеры O'Reilly

Искусство управления IT-проектами
Искусство управления IT-проектами

В отличие от множества трудов, посвященных руководству проектами и командами, в этой книге не проповедуются никакие новые учения и не превозносятся великие теории. Скотт Беркун считает залогом успеха практику и разнообразие подходов. В книге описываются основные сложности и проблемные ситуации, возникающие в работе менеджера проекта, даны рекомендации по выходу из них.Издание предназначено не только для лидеров команд и менеджеров высшего звена, но и для программистов, тестеров и других исполнителей конкретных проектных заданий. Также оно будет полезно студентам, изучающим бизнес-менеджмент, проектирование изделий или программную инженерию.Текст нового издания значительно переработан автором с целью добиться большей ясности, кроме того, книга дополнена новым приложением и более чем 120 практическими упражнениями.

Скотт Беркун

Деловая литература
iOS. Приемы программирования
iOS. Приемы программирования

Книга, которую вы держите в руках, представляет собой новый, полностью переписанный сборник приемов программирования по работе с iOS. Он поможет вам справиться с наболевшими проблемами, с которыми приходится сталкиваться при разработке приложений для iPhone, iPad и iPod Touch. Вы быстро освоите всю информацию, необходимую для начала работы с iOS 7 SDK, в частности познакомитесь с решениями для добавления в ваши приложения реалистичной физики или движений — в этом вам помогут API UIKit Dynamics.Вы изучите новые многочисленные способы хранения и защиты данных, отправки и получения уведомлений, улучшения и анимации графики, управления файлами и каталогами, а также рассмотрите многие другие темы. При описании каждого приема программирования приводятся образцы кода, которые вы можете смело использовать.

Вандад Нахавандипур

Программирование, программы, базы данных / Программирование / Книги по IT

Похожие книги

100 уроков самбо для руководителя
100 уроков самбо для руководителя

Уважаемые читатели, вы держите в руках действительно необычную книгу. И написана она совершенно особым образом. Возможно, вы слышали про уроки управленческой борьбы на основе китайских стратагем или читали «Книгу 5 колеи» знаменитого японского фехтовальщика Миямото Мусаси. Ни для кого не секрет, что уроки единоборств давно используются в управленческой практике и бизнесе. Данная книга уникальна тем, что базируется на опыте российского национального вида спорта – борьбе самбо. Предназначена она в первую очередь для отечественных управленцев. Книга не только передает очень интересный управленческий опыт, но и предоставляет внимательному читателю ключики к загадочной русской душе. Книга написана «на двоих»: один автор – руководитель высокого уровня с богатейшим управленческим опытом Вениамин Каганов, второй – известный бизнес-тренер и оригинальный писатель, суворовед Вячеслав Летуновский. Каждый урок сопровождается реальными примерами из жизни и управленческой практики.

Вениамин Шаевич Каганов , Вячеслав Владимирович Летуновский

Маркетинг, PR
Управление ценами в ритейле
Управление ценами в ритейле

Впервые для специалистов розничной торговли написана уникальная книга по эффективному ценообразованию. В ней приводятся основные методы и приемы управления ценами, анализируются экономическая обоснованность и последствия выбора различных вариантов ценовой политики, рассматриваются принципы координации ценообразования с остальными элементами маркетинга.Материал книги иллюстрируется подробными бизнес-кейсами, которые наглядно представляют рациональные способы решения специфических задач ценообразования, возникающих при организации розничной торговли.Книга предназначена для сотрудников маркетинговых и экономических служб ритейловых фирм, а также студентов экономических и бизнес-специальностей вузов, слушателей бизнес-школ и курсов повышения квалификации.

Игорь Владимирович Липсиц , Ольга Игоревна Рязанова

Маркетинг, PR / Маркетинг, PR, реклама / Финансы и бизнес
100 новых главных принципов дизайна
100 новых главных принципов дизайна

Доктор психологических наук Сьюзан Уэйншенк написала продолжение своего легендарного бестселлера «100 главных принципов дизайна», используя последние открытия в области психологии, нейропсихологии, исследований мозга и социальной психологии. С момента выхода первой книги появились исследования, ставящие перед дизайнером новые задачи. «100 новых главных принципов дизайна» продолжают открывать тайны психологии, нейрофизиологии и исследований мозга и предлагают вам сжатые практичные советы, которые позволят создавать удобный и привлекательный дизайн, отвечающий неосознанным требованиям людей.Узнайте, как повысить эффективность ваших веб-сайтов, приложений, дизайна и продуктов, найдя в книге ответы на следующие вопросы:• Как заинтересовать зрителя рекламным роликом?• Какое количество текста на экране люди готовы прочитать?• Как одним простым приемом усилить правдоподобность вашего контента?• Когда лучше НЕ давать аудитории выбор?• Почему смех помогает в обучении детей?• Облегчают ли шрифты восприятие информации?• На каком месте экрана смартфона нельзя размещать меню?• Каким образом человеческий мозг обрабатывает большие объемы данных?

Сьюзан Уэйншенк

Маркетинг, PR