На рис. 7.2 показаны фактическое и ожидаемое распределения ответов, попавших в заявленный ДИ в тесте из 10 вопросов (данные на рисунке на самом деле отражают результаты нескольких вариаций тестов из 10 вопросов, и результаты аналогичны для всех версий). Если бы все респонденты являлись идеально калиброванными, можно было бы ожидать, что у большинства из них (75 %) 8, 9 или 10 из 10 ответов окажутся в пределах заявленных 90 %-ных доверительных интервалов. Именно такое распределение мы бы ожидали получить, если бы бросили 10-гранный кубик 10 раз, подсчитали количество раз, когда результат был равен 9 или меньше, и повторили процесс тысячу раз. Вместо этого мы видим, что большинство людей предоставляют диапазоны, которые больше похожи на 40 %-ный или 60 %-ный ДИ, а не 90 %-ный. Те, кто случайно получил восемь или более ответов в пределах указанных диапазонов, математически согласуются с категорией некалиброванного, но удачливого «верхнего хвоста» некалиброванной популяции. То есть это не группа уже откалиброванных на момент первого теста людей.
Рис. 7.2. Распределение ответов в пределах 90 %-ных ДИ для калибровочного теста из 10 вопросов
Ожидаемый результат ответов на вопросы типа «верно/неверно» не является конкретным числом, так как степень вашей уверенности может быть разной для каждого ответа – от 50 до 100 %. Если для всех 10 вопросов вы указали 100 %, значит, ожидаете, что все 10 ответов будут верными. Если же вы были уверены в правильности каждого ответа только на 50 % (т. е. считали, что ваши шансы не лучше, чем при подбрасывании монетки), значит, ожидали, что примерно половина из них будет правильной. Чтобы вычислить ожидаемый результат, преобразуйте все обведенные процентные значения в десятичные дроби (т. е. 0,5; 0,6; 0,7; 0,8; 0,9; 1) и сложите их. Допустим, ваша уверенность в ответах была 1; 0,5; 0,9; 0,6; 0,7; 0,8; 0,8; 1; 0,9 и 0,7. Итого 7,9. Значит, «ожидаемое» число правильных ответов равнялось 7,9.
Если вы такие же, как большинство людей, то количество правильных ответов окажется меньше, чем ожидалось. Этого количества вопросов, опять же, недостаточно для измерения вашего умения оценивать неопределенность, но большинство людей настолько самоуверенны, что даже такое небольшое число вопросов может быть весьма показательным.
Одним из способов оценки результативности при прохождении подобного теста является определение вероятности, что действительно откалиброванный человек (т. е. тот, у которого каждый 90 %-ный ДИ с шансом 90 % содержит нужное значение) получит такой же результат, как у вас. Расчеты показывают, что существует лишь 1 шанс из 612, что калиброванному человеку сильно не повезет и только 5 из 10 (или еще меньше) 90 %-ных ДИ будут содержать правильные ответы. Образец электронной таблицы с расчетами и примеры более объемных тестов можно найти на сайте www.howtomeasureanything.com/cybersecurity. Но поскольку более половины респондентов, проходящих тесты, показывают настолько плохие результаты (56 %), можно смело делать вывод, что это систематическая чрезмерная уверенность, а не случайное невезение в сочетании с небольшим размером выборки. И дело не в том, что вопросы были слишком сложными, ведь результаты отражают выводы, сделанные на основе множества тестов с самыми разными вопросами за последние несколько лет. Даже при такой маленькой выборке, если в пределах вашего диапазона оказываются менее семи ответов, то вы, скорее всего, самоуверенны, а если в диапазон попадает менее пяти ответов, вы очень самоуверенны.
С тестами «верно/неверно» респонденты справляются немного лучше, но в среднем они все равно склонны к чрезмерной уверенности, настолько, что это выявляется, как правило, даже с помощью теста всего из 10 вопросов. Обычно люди ожидают правильно ответить на 74 % вопросов типа «верно/неверно», но на самом деле отвечают правильно только на 62 %. Почти треть участников предполагали, что из 10 вопросов в тестах данного типа дадут от 80 до 100 % верных ответов; но ответили правильно только на 64 % вопросов. Отчасти результаты в тесте «верно/неверно» лучше потому, что статистически он менее точен: больше шансов, что калиброванному человеку не повезет, а некалиброванный покажет результат как у калиброванного на такой небольшой выборке вопросов. Но все же, если фактическое число правильных ответов оказалось по меньшей мере на 2,5 ниже ожидаемого, скорее всего, вы слишком самоуверенны.
Дальнейшее совершенствование калибровки