Задавать предусмотренные тестом вопросы – это все равно как если вы, чтобы оценить качество кукурузных початков, бродите по полю и тут и там очищаете от листьев початки у произвольно выбранных растений. К тому моменту, когда вы раскурочите и обследуете, скажем, с сотню початков, вы составите довольно точное представление о положении дел на поле в целом. Полученные данные будут достаточно точны, чтобы сопоставить состояние этого поля с каким-нибудь другим – при условии, что эти два поля не слишком похожи. Потому что в этом случае вам пришлось бы обследовать большее число початков, причем оценивать каждый, исходя из некоего точно определенного критерия качества.
То, насколько точной может считаться ваша выборка, призванная дать представление обо всем поле, есть мера, которую можно выразить количественно: это вероятная ошибка и стандартная ошибка.
Предположим, вам требуется определить размеры немалого числа полей, причем измерять предстоит шагами, следуя вдоль изгородей. Первое, что вам следует сделать, – это проверить, насколько точна ваша система измерения, и для этого нужно несколько раз промерить шагами расстояние, длиною, как вы считаете, 100 ярдов. Вполне возможно, что в среднем погрешность подобного измерения составит 3 ярда. Иными словами, половина ваших промеров даст результат, отличающийся от 100 ярдов на 3 ярда в ту или другую сторону, а в другой половине случаев вы ошибетесь больше, чем на 3 ярда.
Тогда вероятная ошибка ваших измерений составит 3 ярда на 100 ярдов, или 3 %. Значит, длину каждой изгороди, которую вы измерили шагами и определили равной 100 ярдам, можно будет занести в реестр как 100 ± 3 ярда.
(Большинство статистиков на сегодняшний день отдают предпочтение другому, но сопоставимому параметру, называемому стандартной ошибкой. За основу берется порядка двух третей случаев вместо ровно половины, и потом, стандартной ошибкой пользоваться значительно удобнее с точки зрения математики. Но для наших целей мы можем так и продолжить оперировать вероятной ошибкой, которая до сих пор в ходу применительно к тесту Стэнфорда – Бине.)
Как и в случае с нашим гипотетическим измерением полей, вероятная ошибка теста на IQ Стэнфорда – Бине определяется как 3 %. Это ни в коей мере не говорит о том, насколько в основе своей хорош данный тест, а просто указывает, с какой надежностью он измеряет то, что призван измерять. Итак, определенный у Питера IQ можно было бы полнее выразить в виде 98 ± 3, а коэффициент IQ Линды – в виде 101 ± 3.
Это означает, что у IQ Питера равные шансы оказаться где-то в диапазоне от 95 до 101: коэффициент его интеллекта может быть с равной вероятностью как выше этих 98, так и ниже. Аналогично и у Линды вероятность попасть в интервал от 98 до 104 ничуть не лучше, чем пятьдесят на пятьдесят. Из этого вы можете легко сделать вывод, что в одном случае из четырех IQ Питера может действительно быть выше 101, и существует такая же вероятность, что IQ Линды ниже 98. Но тогда Питер не хуже, а лучше, и притом с преимуществом порядка трех пунктов, а то и больше.
Все сказанное подводит нас к тому выводу, что единственно правильным будет рассматривать IQ и результаты многих других выборочных исследований не сами по себе, а с учетом размаха отклонений. Тогда «нормальным» будет считаться показатель не 100 пунктов, а в пределах, скажем, от 90 до 110. В этом случае будет некоторый смысл сравнивать ребенка, чей IQ попадает в эти рамки, с ребенком, чей коэффициент интеллекта выше или ниже данного диапазона. А вот проводить сравнения между цифрами, имеющими маленькую разницу, бессмысленно. Вам следует постоянно помнить об этом плюсе или минусе, то есть ошибке в ту или другую сторону, даже (или особенно) если ее пределы не указаны.
Те, кто пренебрегает ошибкой, которая изначально присуща любым исследованиям на основе выборки, рискуют совершить поразительно глупые поступки. Иные редакторы журналов носятся с результатами опросов читателей так, словно это истина в последней инстанции, и главным образом по той причине, что совершенно не понимают, как их трактовать. Если им скажут, что одну статью читает 40 % мужской аудитории, а другую – только 35 %, они немедленно требуют больше статей наподобие первой.