Читаем Цифры врут. Как не дать статистике обмануть себя полностью

Ошибка техасского стрелка может даже привести в тюрьму. Нидерландская медсестра Люсия де Берк провела шесть лет за решеткой за убийства, потому что за три года во время ее смен умерло семеро пациентов. Не было никаких юридических доказательств, что эти смерти были насильственными и тем более что она убивала этих людей. Но совпадение выглядело достаточно подозрительно для вынесения обвинительного приговора. Как отметил статистик Ричард Гилл, это был классический случай ошибки техасского стрелка: в палатах иногда умирают пациенты и при этом иногда могут присутствовать одни и те же медсестры. В своей колонке в The Guardian Бен Голдакр указал, что за три года, когда Люсия де Берк предположительно убивала людей, в одной из ее палат умерло шесть человек, а за три года до этого – семь. Ее «убийства» по-видимому совпали с резким падением естественного уровня смертности. Кластеры возникают случайным образом, а если обводить их в кружочки – рисовать мишени вокруг пулевых отверстий, – можно убедить себя, что ты снайпер.

Помните MRP-модель компании YouGov? В 2017 году она дала исключительно верные результаты, поэтому в 2019-м все с интересом отнеслись к ее прогнозу о победе тори с небольшим перевесом.

В итоге же счет оказался разгромным: тори получили преимущество в 86 мест, а лейбористы потерпели поражение даже на севере – в своем традиционном оплоте. Не то чтобы модель YouGov существенно ошиблась, но ее результаты не показали значительного превосходства над конкурентами. Тогда многие предсказывали победу тори с большим, чем в MRP-модели, перевесом. Возможно, что у MRP-модели в 2017 году действительно была какая-то изюминка, позволившая ей показать лучшие результаты, но также вероятно, что результаты всех моделей распределялись случайным образом вокруг среднего и MRP повезло оказаться ближе остальных. По одному результату ничего нельзя сказать.

Вот если MRP-модель будет последовательно превосходить другие модели в ходе нескольких следующих выборов, мы будем склоняться к выводу, что она действительно лучше. В противном случае это просто вопрос статистической значимости, который мы обсуждали в главе 5. Мы не сможем отвергнуть нулевую гипотезу, что объяснять тут нечего.

Глава 20

Ошибка выжившего

Как написать бестселлер? Видимо, есть специальная формула, алгоритм или тайный код.

В одной статье (той, что про формулу) отмечался успех Дж. К. Роулинг, Э. Л. Джеймс и Алекс Марвуд и выдвигалось предположение, что ключ к успеху – быть женщиной с мужским псевдонимом. В другой (той, что про алгоритм) с помощью программы обработки текстов выявлялось 2800 характерных для бестселлеров свойств: «более короткие фразы, упор на рассказы от первого лица и не слишком вычурный выбор слов»; «эмоциональный ритм… эмоциональный подъем, затем снижение, снова подъем и снова снижение». Если автор работал журналистом, это тоже плюс (хорошая для нас новость).

Если ваш алгоритм с 97 %-ной точностью может по одному только тексту предсказать, станет ли книга бестселлером, вы, возможно, предпочтете сначала написать парочку-другую бестселлеров и разжиться миллионами, а уж потом поделиться с другими секретом успеха. Но мы не об этом. Нас интересует такой вопрос: лежит ли в основе этих уверенных рекомендаций что-то реальное? Или мы снова столкнулись с какой-то статистической ошибкой?

Внимание, спойлер: второе. Эта ошибка весьма напоминает ошибку техасского стрелка, которую мы обсуждали в предыдущей главе, но есть некоторые важные нюансы. Чтобы их понять, обратимся к интересной истории о бомбардировщиках Второй мировой.

В 1944 году военно-морские силы США проводили интенсивные бомбардировки японских взлетно-посадочных полос ценой колоссальных потерь в деньгах, ресурсах и живой силе. Бомбардировщики подвергались постоянным атакам со стороны вражеских истребителей и наземных установок; многие были сбиты. Американцы хотели укрепить свои самолеты броней, но броня тяжелая, поэтому ею не стоит покрывать весь корпус без необходимости: она снижает скорость и маневренность, сокращает дальность полета и максимальную полезную нагрузку.

Авиаконструкторы стали изучать повреждения самолетов, вернувшихся с боевых заданий, и заметили, что отверстия от пуль и шрапнели в основном находились на крыльях и фюзеляже, но не в моторе. Решили укрепить дополнительной броней именно их.

На ошибочность этого подхода указал статистик Абрахам Вальд. Военные изучали вполне определенные самолеты – те, что вернулись на авианосец. Даже получив множественные повреждения фюзеляжа и крыльев, они, как правило, могли добраться до базы. А те, у которых задело мотор, в основном падали в море и статистикой не учитывались.

Американские военные, сами того не понимая, изучали смещенную выборку (мы обсуждали такие в главе 4). Этот конкретный тип смещения называется ошибкой выжившего. Он связан с тем, что вы рассматриваете только тех представителей некоего класса, о которых слышали.

Перейти на страницу:

Похожие книги

Управление мировоззрением. Подлинные и мнимые ценности русского народа
Управление мировоззрением. Подлинные и мнимые ценности русского народа

В своей новой книге автор, последовательно анализируя идеологию либерализма, приходит к выводу, что любые попытки построения в России современного, благополучного, процветающего общества на основе неолиберальных ценностей заведомо обречены на провал. Только категорический отказ от чуждой идеологии и возврат к основополагающим традиционным ценностям помогут русским людям вновь обрести потерянную ими в конце XX века веру в себя и выйти победителями из затянувшегося социально-экономического, идеологического, но, прежде всего, духовного кризиса.Книга предназначена для тех, кто не равнодушен к судьбе своего народа, кто хочет больше узнать об истории своего отечества и глубже понять те процессы, которые происходят в стране сегодня.

Виктор Белов

Обществознание, социология