Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.
Экономика18+Дэвид Хэнд
Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных
Переводчик
Редактор
Главный редактор
Руководитель проекта
Корректоры
Компьютерная верстка
Художественное оформление и макет
© 2020 by David J. Hand
This edition published by arrangement with the Science Factory, Louisa Pritchard Associates and The Van Lear Agency LLC.
© Издание на русском языке, перевод, оформление. ООО «Альпина Паблишер», 2021
Предисловие
Перед вами необычная книга. Почти все, что издается на эту тему – будь то популярная литература о больших или открытых данных, обработке данных или пособия по статистическому анализу, – основывается на том, что у вас уже есть. Речь идет об информации, хранящейся в компьютере, ящиках рабочего стола или аудио-, видеозаписях вашего смартфона. Но эта книга совсем о другом. Она о данных,
Я утверждаю и далее продемонстрирую это на многих примерах, что отсутствующие данные важны не менее тех, которыми мы располагаем. Вы сможете сами убедиться, что неизвестные нам данные являются причиной многих заблуждений, порой имеющих катастрофические последствия. Я покажу, как и почему это происходит. Затем я расскажу, как этого можно избежать – на что именно стоит обращать внимание, чтобы обойти неприятности. А в завершение, когда вы поймете, как возникают темные данные и как они создают нам проблемы, я покажу, как с их помощью перевернуть с ног на голову традиционное представление об анализе данных и, если вы достаточно проницательны, глубже вникнуть в свою область, улучшить процесс принятия решений и выбора действий.
Мое собственное понимание темных данных развивалось постепенно, на протяжении всей карьеры. Я благодарю всех, кто подкидывал мне проблемы, которые, как я постепенно осознал, были не чем иным, как проблемами темных данных. Я выражаю признательность всем, кто вместе со мной искал способы их решения. Сферы, где возникали эти проблемы, варьировались от медицинских исследований и фармацевтической промышленности до государственной и социальной политики, финансового сектора и производства – ни одна сфера человеческой деятельности не свободна от рисков, которые несут с собой темные данные.