Что случилось? А трюк в следующем. Мошенник-оператор тянет 10 000 имен из телефонной книги. Он отправляет бычье письмо одной половине выборки, и медвежье ― другой. В следующем месяце, он выбирает имена людей, кому он отправил письма с правильным предсказанием, то есть 5000 имен. В следующем месяце он делает то же самое для оставшихся 2500 имен, пока список не сузится до 500 человек. Из них 200 будут жертвами. Инвестиция нескольких тысяч долларов в почтовые марки превратится в несколько миллионов.
Прерванная игра в теннис
Часто, при просмотре по телевидению теннисного поединка, Вас засыпают рекламными объявлениями от фондов, которые сделали в течение некоторого периода (до этой минуты) лучший результат, больший на некоторый процент, чем у других. Но опять, разве рекламировался бы кто-нибудь, если бы он не переиграл рынок? Существует довольно высокая вероятность инвестиции, ищущей вас, успех которой полностью вызван случайностью. Такое явление экономисты и страховщики называют неблагоприятной селекцией. Оценка инвестиции, которая ищет Вас, требует более строгих стандартов, чем оценка инвестиции, которую ищете Вы, вследствие такого пристрастного выбора. Например, идя в когорту, составленную из 10 000 менеджеров, я имею 2/100 шанса для обнаружения поддельного, но оставшегося в живых. Оставаясь дома и отвечая на звонки в мою дверь, шанс ходатайствующей стороны, оказаться поддельной, но оставшейся в живых, ближе к 100 %.
Парадокс дня рождения
Наиболее интуитивный способ описать проблему выкапывания данных не статистику ― применить то, что называется парадоксом дня рождения, хотя считать настоящим парадоксом нельзя, ведь это просто причуда восприятия. Если Вы встречаете кого-то случайно, есть один шанс из 365,25, что Ваши с ним дни рождения совпадают, и значительно меньший шанс совпадения с ним года рождения. Итак, тот же самый день рождения был бы совпадением, которое Вы бы обсуждали за обеденным столом. Теперь посмотрим на ситуацию, в которой в комнате находятся 23 человека. Каковы шансы, что там окажутся два человека с одинаковым днем рождения? Приблизительно 50 %. Поскольку мы не определяем, у каких людей должны совпадать дни рождения, подходят любые пары.
Мир тесен!
Подобное неправильное представление о вероятности возникает в результате случайных столкновений, которые могут произойти с родственниками или друзьями в самых неожиданных местах. «Мир тесен» произносится часто и с удивлением. Но такие события не невероятны, хотя мир намного больше, чем мы думаем.
Только мы не проверяем шансы встретить определенного человека, в определенном месте и в определенное время. Скорее, мы просто прикидываем шансы любой встречи, с любым человеком, которого мы когда-либо встречали в прошлом, в любом месте, которое мы посетим в течение интересующего периода. Вероятность последнего значительно выше, возможно, в несколько тысяч раз.
Когда статистик смотрит на выборку данных
Раскапывание данных, статистика и шарлатанство
Какова вероятность для Вас выиграть дважды в нью-джерсийской лотерее? Один шанс из 17 триллионов. И все же это случилось с Эвелин Адамс, кого читатель мог бы считать избранницей судьбы. Используя метод, который мы развивали выше, Перси Диаконис и Фредерик Мостеллер из Гарварда, оценили шансы как 30 к 1, что кто-либо где-нибудь полностью неоднозначным способом станет настолько удачливым!
Некоторые люди переносят свою деятельность по выкапыванию данных в богословие. В конце концов, в древнем Средиземноморье практиковалось чтение потенциальных сообщений по внутренностям птиц. Интересное расширение выкапывания данных на библейские толкования представлено в
Лучшая книга, какую я когда-либо читал!