Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Причина в том, что реальные данные всегда подвержены влиянию случайных аспектов. Самое точное измерение массы, заряда или давления в физическом эксперименте, как правило, все равно даст случайный разброс значений из-за флуктуаций исходных условий, и остается только надеяться, что полученные данные будут распределены вокруг истинного значения того, что измеряется. Измерение роста людей в популяции дает распределение значений, потому что рост – это индивидуальная характеристика. Количество и вес семян, произведенных растениями одного вида, будут для каждого растения свои по той же причине. Поэтому, если мы хотим подделать данные так, чтобы они выглядели реально, мы должны учесть этот случайный разброс.

Однако люди сами по себе, без дополнительных технических средств, не очень хорошо справляются с этой задачей. Мы не способны выдумывать данные, которые бы выглядели убедительно случайными, то есть не имели внутренних закономерностей. Если вы попросите разных людей сгенерировать случайным образом достаточно большой числовой ряд, то увидите, что, как правило, в нем будет слишком мало сгруппированных одинаковых цифр (например, 333 и 77), слишком часто будут встречаться восходящие или нисходящие серии (например, 654 и 4567), слишком навязчиво будут повторяться числовые последовательности и другие типы закономерностей. Например, Берни Мэдофф, о котором мы говорили в главе 1, как выяснилось после его разоблачения, куда ни попадя вставлял парные восьмерки и шестерки, начиная от финансовой отчетности и заканчивая фальшивыми результатами игры в гольф.

Естественно, все зависит от степени изощренности мошенника. Тот, кто хорошо знаком со статистикой, будет в курсе того, чем ложные данные могут отличаться от реальных, и постарается учесть эти аспекты. В качестве альтернативы простому измышлению люди могут копировать данные из другого источника или даже не просто копировать, а добавлять к ним небольшие случайные возмущения. Все это заставляет задуматься: не легче ли провести реальный эксперимент, чем прилагать столько усилий для создания убедительной фальшивки?

Приукрашивание

Приукрашивание – корректировка данных с целью их лучшего соответствия теории. Бэббидж охарактеризовал этот процесс как «отрезание маленьких кусочков тут и там от наблюдений, которые слишком далеко отстоят от средних значений, и приклеивание их к тем, которые находятся слишком близко». При этом стратегическое среднее значение может быть оставлено без изменений, а диапазон значений сужен, что заставит неопределенность измерений казаться меньше, чем она есть на самом деле.

В статистике существуют надежные методы, которые делают нечто подобное и при определенных обстоятельствах защищают от избыточного влияния, которое необычно высокие или низкие (а значит, возможно, ложные) значения могут оказать на результаты. Один из таких методов, винсоризация (в честь статистика Чарльза Уинсора), заключается в замене экстремальных значений другими, находящимися на определенном удалении от среднего. Например, значения, лежащие за пределами двух стандартных отклонений, могут считаться недостоверными и заменяться значениями на уровне двух стандартных отклонений. Среднее значение полученных в результате данных будет менее изменчиво, чем среднее значение исходных данных, поэтому ваша аудитория должна обязательно знать, что данные были изменены. Если вы не сообщите об этом, то замаскируете правду. И обратите внимание, что этот технический прием не подразумевает приклеивания обрезанных «кусочков» данных к другим значениям!

В предельной версии приукрашивания фрагменты данных перемещаются или копируются целыми партиями из одной части большого набора данных в другую. Как и при банальном выдумывании данных, такие «оптовые поставки» могут сэкономить массу усилий! Я видел, как это делалось с числовыми данными в случаях предполагаемого мошенничества, которые мне довелось изучать, но все-таки чаще такой подход используют при работе с фотографиями, когда хотят, чтобы на них отображалось нечто иное.

Я также неоднократно видел, как серьезным приукрашиванием занимаются и на более высоком уровне. Работы, представленные в авторитетные научные журналы, проходят процедуру рецензирования, в ходе которой они рассылаются нескольким независимым исследователям для оценки точности представленных результатов, правильности проведения исследования и важности его публикации. Если рецензент указывает на какие-то недостатки в исследовании, то авторы в ответ порой вносят в статью поправки, добавляющие двусмысленности, чтобы другие рецензенты (да и читатели) не смогли обнаружить ошибок, после чего отправляют статью в другой журнал.

Перейти на страницу:

Похожие книги

Теория праздного класса
Теория праздного класса

Автор — крупный американский экономист и социолог является представителем критического, буржуазно-реформистского направления в американской политической экономии. Взгляды Веблена противоречивы и сочетают критику многих сторон капиталистического способа производства с мелкобуржуазным прожектерством и утопизмом. В рамках капитализма Веблен противопоставлял две группы: бизнесменов, занятых в основном спекулятивными операциями, и технических специалистов, без которых невозможно функционирование «индустриальной системы». Первую группу Веблен рассматривал как реакционную и вредную для общества и считал необходимым отстранить ее от материального производства. Веблен предлагал передать руководство хозяйством и всем обществом производственно-технической интеллигенции. Автор выступал с резкой критикой капитализма, финансовой олигархии, праздного класса. В русском переводе публикуется впервые.Рассчитана на научных работников, преподавателей общественных наук, специалистов в области буржуазных экономических теорий.

Торстейн Веблен

История / Прочая старинная литература / Финансы и бизнес / Древние книги / Экономика