Разброс в результатах Тима Клиффорда произошел в результате еще одного случая неверной интерпретации статистики, на этот раз повсеместно распространенной. Баллы учителя берутся из тестов, которые ничего не измеряют. Это может показаться гиперболой. В конце концов, дети ведь сдают тесты, от результатов которых зависит результат Клиффорда. Это действительно так. Но результаты Клиффорда, как унизительные 6 баллов, так и триумфальные 96, были основаны почти полностью на приближениях, причем столь слабых, что по сути своей случайных.
Проблема заключалась в том, что администраторы в своем стремлении к справедливости утратили точность. Они поняли, что было бы неправильно слишком сильно возносить учителей, которые преподают в богатых школах детям врачей и юристов, идущим прямой дорогой в элитные университеты. Равно как и несправедливо ждать от учителей в бедных районах, что они будут добиваться тех же результатов. Мы не можем ждать от них, что они станут творить чудеса.
Поэтому вместо того, чтобы оценивать учителей по абсолютной шкале, они попытались адаптировать свою модель под социальное неравенство. Вместо того чтобы сравнивать учеников Тома Клиффорда с учениками из других районов, они сравнивали их с прогнозируемыми моделями их самих. Каждому ученику присваивался определенный предсказанный результат. Если он превосходил это предсказание, учитель получал хороший балл. Если ученик недотягивал, учителю вменяли это в вину. Вам это кажется примитивным? Поверьте, так оно и есть.
Говоря статистически, в этих попытках освободить тесты от влияния дохода и расовой принадлежности администрация перешла от первичной ко вторичной модели. Вместо того чтобы основывать результаты на прямом оценивании учеников, они основывали их на так называемой величине погрешности, то есть на разрыве между результатами и ожиданиями. С точки зрения математики это гораздо менее точное предположение. Учитывая то, что сами ожидания происходят от статистических данных, это приводит к догадкам поверх догадок. Результатом становится модель со случайными результатами – то, что специалисты по статистике называют «шумом». Вы можете подумать, что большие числа могут дать более надежные результаты. В конце концов, в Нью-Йорке живет 1,1 миллиона учеников общественных школ, и это достаточно большие данные, чтобы делать осмысленные предположения. Если 80 тысяч восьмиклассников сдают тест – наверное, на основе этого количества вполне можно установить достоверные средние баллы для слабых, средних и успешных школ?
Да. И если бы Тим Клиффорд учил большое количество учеников – скажем, десять тысяч, – тогда было бы разумно сравнивать их результаты со средними показателями прошлого года и делать из этого какие-то выводы. Большие числа нейтрализуют исключения – и, теоретически, высвечивают тенденции. Но класс, состоящий из 25 или 30 человек, практически невозможно сравнить с большим количеством. Поэтому, если в классе есть определенный тип учеников, они будут улучшать показатели быстрее среднего уровня. Другие будут это делать медленнее. Клиффорду не дали практически никакой информации по непрозрачному ОМП, которое выдало ему такой дикий разброс в результатах, но он предположил, что дело было именно в этой вариации в его классах. В год, когда Клиффорд получил плохой результат, он, по собственным воспоминаниям, «обучал многих учеников по программе коррекции, как и многих лучших учеников. Думаю, обучение как особых, так и лучших учеников – или и тех и других – создает проблемы. Результаты особых учеников сложно изменить, потому что они испытывают трудности в учебе, тогда как результаты лучших учеников тоже сложно изменить, потому что они уже практически достигли максимума – и у них остается очень мало места для улучшения».
На следующий год ему достался другой набор учеников, в котором большее количество находилось примерно посередине между полюсами. В результате сложилось впечатление, что за год Клиффорд прогрессировал от бездарного до блистательного педагога. И такой результат не редкость. В результате анализа, проведенного блогером и преподавателем Гэри Рубинштейном, каждый из четырех учителей, преподающих один и тот же предмет, получил разброс в 40 баллов по результатам оценивания в течение двух лет подряд. Это заставляет предположить, что оценивание выдавало практически случайные данные. То есть не педагогические способности скачут туда-сюда, а результаты, которые выдает бракованное ОМП.
И хотя эти результаты лишены смысла, модели подсчета роста знаний влияют на систему образования чрезвычайно обширно и пагубно. «Я видел, как некоторые великолепные учителя, основываясь на этих результатах, убеждали себя в том, что они в лучшем случае посредственности, – говорит Клиффорд. – Эти данные сдвинули фокус их внимания с великолепных уроков, которые они раньше давали, на усиленную подготовку к тестам. Для молодого учителя плохой результат – это наказание, а хороший может привести к фальшивому и незаслуженному ощущению, что они чего-то добились».