Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Есть еще одно важное замечание по поводу обнаружения ошибок: вы никогда не можете быть уверены, что обнаружили их все. К сожалению, истина заключается в том, что наличие ошибок (иногда) может быть доказано, а вот их отсутствие – нет. Хотя данные могут становиться ошибочными неограниченным количеством способов, число способов, которыми их можно проверить, всегда конечно. Тем не менее к этой ситуации, несомненно применим принцип Парето, и мы можем утверждать, что большинство ошибок будет обнаружено с относительно небольшими усилиями. Однако здесь действует и другой закон – закон убывающей отдачи. Если вы обнаружите 50 % ошибок, приложив определенные усилия, то точно такие же усилия, приложенные вновь, смогут обнаружить 50 %, но уже от оставшихся ошибок. Такое убывание результата будет сопровождать каждый цикл и означает, что вы никогда не сможете выявить все ошибки.

Исправление

Третий этап в борьбе с темными данными, после предотвращения и обнаружения ошибок, – это их исправление. После того, как вы заметили неверное значение, нужно понять, каким оно должно быть. Методы исправления ошибок – если, конечно, исправление вообще возможно – зависят от того, что вам известно об ожидаемых значениях, и от общего понимания возникающих ошибок. Примеры с неуместными десятичными разделителями в главе 4 иллюстрируют то, как наше общее понимание данных и опыт прошлых ошибок подсказывают, каким должно быть истинное значение. Аналогичный пример: если в таблице зарегистрировано значение скорости велосипедиста 240 км/ч, притом что все другие значения лежат в диапазоне между 8 км/ч и 32 км/ч, логично предположить, что затесался лишний ноль и истинное значение составляет 24 км/ч. Однако не стоит сразу вносить исправления, предположив истину, – необходимо всесторонне проверить свое предположение. Прежде чем исправлять ошибку в последнем примере, нелишне будет узнать, что в сентябре 2018 г. чемпионка мира по велоспорту Дениз Мюллер-Коренек установила рекорд скорости на велосипеде, разогнав его до 296 км/ч. Если не вернуться к исходному источнику или не повторить измерение, мы не сможем быть уверены в том, какое значение должно быть на месте предполагаемого ошибочного, даже если сам факт ошибки не вызывает сомнений.

Последнее общее замечание на тему ошибок в данных, которое я хотел бы сделать, связано с новыми удивительными мирами данных и их пониманием, которые нам открыли и продолжают открывать компьютерные вычисления. Сегодня собираются, хранятся и обрабатываются немыслимые еще недавно, поистине колоссальные массивы данных. Эти базы данных открывают огромные возможности. Но не стоит забывать, что применение компьютеров также подразумевает и некоторую фундаментальную непрозрачность. Хотя они позволяют нам разглядеть в данных то, что мы никогда бы не обнаружили невооруженным глазом, в то же время компьютеры действуют как посредник между нами и данными. Компьютеры могут скрывать от нас какие-то аспекты данных.

<p>Глава 9</p><p>Полезные темные данные</p><p><emphasis>Переосмысление вопроса</emphasis></p><p>Сокрытие данных</p>

Может показаться, что темные данные – это сплошные проблемы и недостатки. Да, ключевым посланием этой книги является призыв к осторожности. Но есть методы, с помощью которых мы можем использовать темные данные в собственных интересах, при условии, что хорошо понимаем свои действия и соблюдаем должную осмотрительность. Другими словами, существуют методы, с помощью которых мы можем оседлать нашу темную лошадку – направить неопределенность, присущую темным данным, против них же самих, что позволит достичь лучшего понимания, делать более точные прогнозы, повысить эффективность действий в различных областях и даже просто экономить деньги. Все это становится возможным, если стратегически игнорировать часть данных и намеренно уводить их в тень.

Исследование этой идеи мы начнем с того, что переформулируем некоторые уже знакомые нам статистические идеи. Другими словами, мы посмотрим на них под новым углом, с точки зрения активного сокрытия информации или данных. В начале главы мы по-новому взглянем на те идеи, с которыми уже сталкивались в предыдущих главах, а затем познакомимся с некоторыми новыми перспективными идеями, способными сделать статистические методы работы с темными данными более совершенными.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление знаниями. Как превратить знания в капитал
Управление знаниями. Как превратить знания в капитал

Впервые в отечественной учебной литературе рассматриваются процессы, связанные с управлением знаниями, а также особенности экономики, основанной на знаниях. Раскрываются методы выявления, сохранения и эффективного использования знаний, дается классификация знаний, анализируются их экономические свойства.Подробно освещаются такие темы, как интеллектуальный капитал организации; организационная культура, ориентированная на обмен знаниями; информационный и коммуникационный менеджмент; формирование обучающейся организации.Главы учебника дополнены практическими кейсами, которые отражают картину современной практики управления знаниями как за рубежом, так и в нашей стране.Для слушателей программ МВА, преподавателей, аспирантов, студентов экономических специальностей, а также для тех, кого интересуют проблемы современного бизнеса и развития экономики, основанной на знаниях.Серия «Полный курс МВА» подготовлена издательством «Эксмо» совместно с Московской международной высшей школой бизнеса «МИРБИС» (Институт)

Александр Лукич Гапоненко , Тамара Михайловна Орлова

Экономика / О бизнесе популярно / Финансы и бизнес