Удача играет немалую роль в положении спортивных команд в турнирной таблице, а регресс к среднему означает, что можно ожидать того, что команды, преуспевающие в этом году, ухудшат игру в следующем, а плохо играющие сегодня улучшат ситуацию в будущем, особенно если команды примерно равны по силам. Напротив, видя такие изменения, мы можем подозревать, что работает регресс к среднему, и не стоит слишком обращать внимание на заявления о влиянии, скажем, новых методов тренировок.
В турнирных таблицах ранжируются не только спортивные команды. Рассмотрим таблицы Международной программы по оценке образовательных достижений учащихся (PISA), где сравниваются результаты преподавания математики в школах разных стран. Изменение положения страны в сводной таблице за 2003–2012 годы отрицательно коррелирует с начальным ее положением в списке. Иными словами, страны из верхней части списка имеют тенденцию опускаться, а из нижней части – подниматься: коэффициент корреляции равен –0,60. Однако определенные теоретические выкладки показывают, что если бы ранжирование было полностью случайным и действовал исключительно регресс к среднему, то для коэффициента корреляции можно было бы ожидать значения –0,71, которое не очень отличается от реально наблюдаемого[119]. Это говорит о том, что различия между странами меньше, чем заявляется, и что у изменений в таблицах мало общего с изменениями в методиках преподавания.
Регресс к среднему проявляется и в клинических испытаниях. В предыдущей главе мы узнали, что для правильной оценки нового лекарственного препарата нужно провести рандомизированные испытания, поскольку даже люди из контрольной группы демонстрируют улучшение состояния – так называемый эффект плацебо. Это часто истолковывают так: простой прием сахарной пилюли (предпочтительно красной) на самом деле благотворно влияет на здоровье человека. Но значительная часть улучшений у людей, не проходивших активного лечения, может приходиться на регресс к среднему, поскольку пациентов включают в испытания, когда у них есть определенные симптомы, а многие из симптомов пропали бы в любом случае. Так что если мы хотим знать подлинный эффект установки камер контроля скорости в местах повышенной аварийности, нам нужно подойти к этому вопросу так же, как к проверке фармацевтического препарата, и распределить камеры случайным образом. (После проведения таких исследований оказалось, что примерно две трети пользы от камер приходится на регресс к среднему[120].)
Со времен первой работы Гальтона появилось множество расширений базовой идеи регрессии, в значительной степени подкрепленных современными вычислительными возможностями. Такие обобщения включают:
• несколько независимых (объясняющих) переменных;
• независимые переменные, которые не являются числами;
• зависимости, которые отображаются не прямыми, а кривыми, и гибко подстраиваются под закономерность в данных;
• зависимые переменные, которые не являются непрерывными.
В качестве примера наличия более одной независимой переменной рассмотрим, как рост сына или дочери зависит от роста их отца и матери. Теперь точки на диаграмме расположены в трех измерениях, и на странице книги изобразить это сложнее. Однако мы по-прежнему можем применить метод наименьших квадратов, чтобы вывести формулу, которая наилучшим образом предскажет рост потомства. В этом случае говорят о множественной линейной регрессии[121]. Когда у нас была всего одна независимая переменная, связь с зависимой переменной показывал наклон (угловой коэффициент) прямой, который одновременно интерпретировался как коэффициент в уравнении регрессии. Эту идею можно распространить на несколько независимых переменных.
В табл. 5.3 приведены результаты для семей Гальтона. Как можно интерпретировать показанные здесь коэффициенты? Прежде всего они являются частью формулы, которую можно использовать для прогнозирования роста взрослого потомства у конкретных отца и матери[122]. Одновременно они также иллюстрируют идею поправки для наблюдаемого отношения, учитывая третий, возмущающий фактор.
Таблица 5.3
Результаты множественной линейной регрессии для роста взрослого потомства в зависимости от роста их отцов и матерей. Отсекаемый на прямой отрезок (сдвиг) – это средний рост потомства (табл. 5.1). Коэффициенты линейной регрессии показывают прогнозируемое изменение в росте потомков при изменении среднего роста родителей на 1 дюйм