В определенном смысле они правы. Было бы замечательно узнать, как бы пошли дела у тех, кто не был принят. Лично я считаю, что у большинства из них все было бы в порядке. Но проблема в том, что мы не можем провести подобные исследования – именно потому, что такие люди не были допущены к участию в программе, причем чаще всего на основании результатов тестирования. То есть чтобы разубедить скептиков, необходимо провести исследования, которые провести невозможно. Но зато можно сделать что-то довольно близкое к этому. В течение года или нескольких лет мы могли бы принимать всех абитуриентов, независимо от результатов тестирования, и посмотреть, как они проявят себя в различных аспектах программы. В этом случае базовая выборка была бы свободна от того смещения, которое «портит» выборку, сформированную по результатам тестирования. Идеальным с точки зрения эксперимента был бы, безусловно, случайный прием абитуриентов. Но, конечно же, никто не захочет закрывать глаза на результаты тестирования в течение года или двух, а руководство факультета будет против набора аспирантов по случайному принципу. Таким образом, система остается на прежнем месте, а люди – при своих убеждениях, которые, похоже, так никогда и не удастся переломить.
Наши исследования GRE-тестов и другие подобные данные указывают на необходимость получения дополнительной информации о валидности тестов – помимо той, что обычно приводится в технических руководствах. Нужны более универсальные критерии, а также данные о валидности тестов для различных групп людей и различных ситуаций. Часто подразумевается, что, раз тесты работают для одной группы, они будут работать и для других, хотя на практике можно наблюдать обратное.
Надежность (достоверность)
При оценке тестов их издатели и потребители уделяют пристальное внимание еще одной характеристике. Речь идет о надежности (достоверности), которая определяет, насколько устойчиво тест измеряет то, для чего он предназначен. Другими словами, если тест выполняется один раз, а затем еще раз, будут ли совпадать результаты?
Многие из распространенных тестов достаточно надежны – в противном случае они бы и не завоевали такую популярность. Но здесь речь идет об усредненных показателях. Встречаются люди, результаты которых флуктуируют в умеренных пределах, а есть и такие, у которых разбежки от теста к тесту могут быть значительными. Так, например, с помощью специальных пособий и курсов подготовки многим удается улучшать результаты выполнения таких тестов, как SAT и GRE, или других аналогичных конкурсных тестов.
В связи с доступностью таких книг и курсов, а также с учетом того, что они позволяют в среднем заметно повышать показатели тестирования, возникает вопрос о равноправии. Как быть с теми, кто не знает о существовании таких курсов, кто не может себе их позволить или у кого нет на них времени? Безусловно, издатели тестов будут настаивать, что даваемые книгами и курсами преимущества не так уж велики. В среднем, конечно, нет. Но для отдельных людей они существенны, а что более важно, когда речь идет о миллионах решений, принимаемых в течение года по результатам миллионов тестов, даже очень маленькие различия приведут в среднем к весьма впечатляющим последствиям. Для некоторых соответствующая книга или курсы могут сыграть важную роль, и ввиду неравноправного доступа к ним результаты тестирования для различных людей не могут интерпретироваться единым образом. Поэтому общая надежность тестов призвана нивелировать подобные нежелательные последствия неравноправия.
Издатели также отдают предпочтение таким тестам, в которых отдельные задания конкретного субтеста измеряют примерно одну и ту же характеристику. Они даже приводят статистические данные, демонстрирующие однородность различных элементов субтеста по отношению к измеряемой характеристике. Хотя за такую согласованность результатов приходится расплачиваться. Чем больше элементов теста измеряют одно и то же, тем меньше диапазон проводимых измерений. Другими словами, согласованность достигается за счет широты охвата. Узость используемых тестов, похоже, мало кого волнует; но тесты ведь действительно очень ограничены! Мы имеем надежные хорошие измерения пассивного интеллекта. Но как использовать результаты этих измерений?
Как используются тесты
Тесты используются так же, как это описывает принцип Гейзенберга: прибор, проводящий измерения, сам влияет на оцениваемые характеристики. Например, в нашем обществе те, кто находится на верхних ступеньках социальной лестницы, – юристы, врачи, бизнесмены, профессоры колледжей – имеют, как правило, более высокие IQ, чем те, кто занимает нижние ступеньки этой лестницы, – поденщики, уборщики, дворники. Таким образом, IQ связан с занимаемым положением, но является ли он причиной достижения этого положения?