Выбирая из огромного разнообразия имеющихся статистических методов те, о которых следовало бы рассказать в этой книге, я старался не ограничиваться уже ранее знакомыми мне. В частности, для меня новинкой стали приемы дидактического тестирования (educational testing), практически неизвестные специалистам по измерению, работающим в других областях. Именно таким приемам посвящена книга с многозначительным названием «Objective Measurement» («Объективное измерение»). Подобная публикация могла быть всесторонним исследованием проблем измерения, одинаково интересным для астронома, инженера-химика и программиста, но в ней говорится лишь об оценке способностей человека и дидактическом тестировании. Это все равно, как если бы вы увидели старую карту с названием «Карта мира», на которой на самом деле изображен богом забытый островок в Тихом океане и которая была составлена людьми, не знавшими, что населяют лишь крошечную часть огромной планеты. Один специалист по дидактическому тестированию как-то рассказал мне об «инвариантном сравнении» — характерной черте измерения, которая, по его словам, «настолько фундаментальна, что ее можно считать на 10 % основой статистики». Другой эксперт в этой же области уверял, что это суть физики. Из всех физиков и статистиков, которых я позднее спрашивал об «инвариантном сравнении», что-то слышал о нем только один. По всей видимости, то, что специалисты по дидактическому тестированию считают общей для всех фундаментальной основой, на самом деле имеет значение только для них. Справедливости ради отмечу, что, наверное, кто-то скажет то же самое и о книге, претендующей научить читателя измерять все, что угодно.
Но вообще говоря, у специалистов по дидактическому тестированию есть чему поучиться. Ведь им приходится решать все проблемы по оценке возможностей человека — большую группу задач измерения того, что многие компании считают неизмеряемым. Концепция инвариантного сравнения имеет отношение к ключевой проблеме проведения многих тестов на определение способностей человека, например теста на IQ. Принцип инвариантного сравнения гласит, что если один инструмент измерения говорит, что А больше, чем В, то и другой инструмент должен продемонстрировать то же самое. Иными словами, результаты сравнения А и В должны быть одинаковыми, какие бы инструменты измерения ни использовались. Для физика это очевидно настолько, что даже не заслуживает упоминания. Казалось бы, если на одних весах А весит больше, чем В, то и другие весы должны показывать то же самое, даже если первые весы пружинные, а вторые — цифровые. Аналогичные результаты должны наблюдаться с IQ-тестами или любыми другими тестами, оценивающими человеческую эффективность. Однако при проведении таких испытаний может произойти нечто совсем иное: результаты теста на IQ с одним набором вопросов могут сильно отличаться в выводах от результатов аналогичного теста с другим набором вопросов. Поэтому один тест может показать, что Боб умнее Шерри, а второй — что Шерри умнее Боба.
Другое проявление той же проблемы наблюдается, когда разным экспертам приходится оценивать способности больших коллективов. Если аттестуемых слишком много, то и их делят на группы, и каждый человек имеет дело с разным составом судей. Возможно, один эксперт оценивает одно качество одного аттестуемого, а другой обращает внимание совсем на другое или же разным людям даются задачи разной степени сложности. Предположим, например, что вы хотите оценить квалификацию менеджеров проекта по тому, как они справятся с порученными им программами. Если таких менеджеров несколько, то вам потребуется не один судья. Экспертами могут стать непосредственные начальники аттестуемых менеджеров как люди, наиболее знакомые с их работой. Отметим, что проекты могут различаться по сложности. Предположим далее, что все менеджеры, независимо от того, какие проекты им поручены и кому они подчиняются, должны конкурировать за один фонд бонусов или за одни и те же карьерные места. Те, кого будет оценивать строгий судья или кому поручены более сложные проекты, окажутся в невыгодном положении по сравнению с другими. Сравнение разных менеджеров не будет инвариантным (то есть независимым от того, кто его проводит и по каким критериям). На самом деле, доминирующими решающими факторами, определяющими рейтинг проект-менеджеров, могут оказаться условия, не контролируемые ими.
Решение этой проблемы в 1961 г. предложил датский статистик Георг Раш[43]
. Он разработал метод предсказания вероятности того, что испытуемый правильно ответит на вопрос бинарного типа «верно/неверно» на основе 1) процента в генеральной совокупности других респондентов, ответивших на этот вопрос правильно, и 2) процента других вопросов, на которые данный испытуемый уже ответил правильно. Выполнение тестов человеком, не знакомым с предлагаемым набором вопросов, можно предсказать с погрешностью, поддающейся вычислению, даже если давать испытуемым разные тесты.