Вполне справедливо ожидать в подобном эксперименте меньше согласованности среди участников, чем в профессиональных суждениях, таких как вынесение приговоров в суде. Каждый согласится, что одни люди очень привлекательны, а другие выглядят отталкивающе, однако в пределах области значимости мы ожидаем, что реакция на лица будет весьма индивидуальной. И в самом деле, среди респондентов обнаружилось мало согласия: скажем, при оценке честности разброс по изображениям насчитывал лишь 18 % от всех отклонений. Оставшиеся 82 % представляли из себя шумовые помехи.
Точно так же справедливо ожидать от результатов эксперимента меньшего постоянства в оценках, поскольку качество оценок исполнителей, которым платят за ответы онлайн, зачастую существенно ниже, чем у профессионалов. И тем не менее самым существенным компонентом шума стал постоянный внутриэкспертный шум. Вторым по значимости стал межэкспертный шум, то есть различия среди наблюдателей в средних оценках честности. Ситуативный шум, хотя и оставался существенным, был самым небольшим из компонентов.
Исследователи пришли к тем же самым выводам, когда задавали респондентам другие вопросы, к примеру, какие машины им нравятся или какие блюда они предпочитают, или более близкие к задачам, с которыми работают профессионалы. Скажем, в повторении исследования о назначении компенсации морального ущерба, рассмотренного нами в главе 15, респонденты оценивали меру наказания для десяти случаев причинения вреда здоровью; опрос проходил в два этапа, разделенных неделей. И опять постоянный внутриэкспертный шум стал самым значительным компонентом. Во всех исследованиях участники в основном не соглашались друг с другом, однако оставались практически постоянными в своих собственных оценках. Такое «постоянство без единодушия», как выразились исследователи, свидетельствует о явном наличии постоянного внутриэкспертного шума.
Наиболее убедительные доказательства роли постоянного внутриэкспертного шума содержатся в большом исследовании по проблеме освобождения обвиняемых под залог192
, упомянутом в главе 10. В одной из частей этой внушительной работы авторы создали статистическую модель, которая симулировала работу судей, а именно то, как в принятии решения каждый из них использовал доступную ему информацию. Они создали индивидуальные модели 173 судей. Затем заставили модели вынести решения193 по 141 833 делам, в итоге получив 173 решения по каждому делу – всего более 24 миллионов решений. По нашей просьбе авторы любезно выполнили специальный анализ, в котором разделили разбросы оценок на три группы: «верные» оценки (близкие к среднему по каждому делу), межэкспертный шум, возникавший от различия в предрасположенности судей отпустить обвиняемого под залог, и оставшийся внутриэкспертный шум.Анализ имеет прямое отношение к нашим доводам, поскольку межэкспертный шум, измеряемый в ходе этого исследования, оставался постоянным. Случайное присутствие ситуативного шума здесь ничего не значит, поскольку это анализ моделей, предсказывающих решения судей. Включены только поддающиеся проверке постоянные индивидуальные критерии прогнозирования.
Выводы были недвусмысленными: постоянного внутриэкспертного шума194
оказалось почти в четыре раза больше, чем межэкспертного (26 % против 7 % от общего отклонения). Идентифицированные в ходе эксперимента постоянные и уникальные шаблоны принятия решений давали гораздо больше шума, чем общие различия в строгости.Все факты согласуются с рассмотренным в главе 7 исследованием ситуативного шума: хотя существование ситуативного шума удивляет и даже тревожит, нет признаков того, что здесь внутриэкспертная составляющая превышает межэкспертную. Зато в отношении системного шума мы с самого начала пренебрегли его наиболее важным компонентом, а именно постоянным внутриэкспертным шумом, или расхождением среди судей в их оценке определенных дел.
Учитывая относительную нехватку релевантных исследований, наши выводы не заключительные, однако они отражают изменение нашего понимания шумовых помех и того, как с ними бороться. В принципе межэкспертный шум, или, проще говоря, общие различия между судьями, не должны представлять серьезной проблемы в плане измерения и действий по устранению. Если встречаются аномально «несговорчивые» оценщики, «бдительные» сотрудники органов опеки, «не расположенные к риску» представители кредитных организаций, то учреждения, принимающие на работу этих людей, должны стремиться подогнать уровень их решений под средний. Например, университеты справляются с проблемой, требуя от преподавателей придерживаться заранее установленного распределения оценок на каждом курсе.