Например, мы видели в табл. 5.2, что угловой коэффициент регрессионной прямой, связывающей рост дочерей и матерей, равнялся 0,33 (вспомните, что угловой коэффициент прямой наилучшего приближения для точечной диаграммы – это всего лишь другое название коэффициента регрессии). Табл. 5.3 показывает, что если мы учтем еще и влияние роста отца, то этот коэффициент уменьшится до 0,30. Аналогично, если мы учтем при прогнозировании роста сына еще и рост матери, то коэффициент регрессии для отца снизится с 0,45 в табл. 5.2 до 0,41 в табл. 5.3. Таким образом, влияние роста одного родителя слегка снижается, если учитывать рост второго. Причиной может быть тот факт, что рост родителей не совсем независимая величина, ведь высокие женщины чаще выходят замуж за высоких мужчин. В целом эти данные говорят о том, что изменение роста отца на 1 дюйм сильнее сказывается на росте взрослого ребенка, чем изменение роста матери на 1 дюйм. Множественная регрессия часто используется, когда исследователей интересует одна объясняющая переменная, а остальные служат в качестве поправок для учета дисбаланса.
Давайте вернемся к шведскому исследованию опухолей мозга, о котором мы упоминали в главе 4, иллюстрируя то, как СМИ неверно трактуют причинность. В регрессионном анализе количество опухолей рассматривалось как зависимая переменная (переменная отклика), а образование как независимая (объясняющей) переменная. В регрессионную модель включались и другие факторы: возраст при диагностике, календарный год, регион Швеции, семейное положение и доход; все это считалось потенциальными возмущающими переменными. Поправка на возмущения была попыткой выделить чистую зависимость между образованием и опухолями мозга, однако полной адекватности здесь все равно никогда не добиться. Всегда будет оставаться подозрение, что могут срабатывать какие-то скрытые факторы, например, такой: более образованные люди больше заботятся о здоровье, поэтому активнее занимаются диагностикой.
В рандомизированном испытании нет необходимости вносить поправки из-за возмущающих факторов, поскольку случайное распределение по группам гарантирует, что все факторы, кроме изучаемого, будут равномерно сбалансированы между группами. Однако исследователи часто все равно проводят регрессионный анализ – на случай, если вкрадется какой-либо дисбаланс.
Не все данные являются непрерывными измерениями, такими как рост. В статистическом анализе зависимые переменные часто могут иметь другой вид: доля случаев, когда произошло какое-нибудь событие (например, доля людей, переживших операцию), количество каких-нибудь событий (например, число выявленных случаев рака в год в определенном регионе) или продолжительность времени до определенного события (например, количество лет, которое пациент прожил после операции). Для каждого из таких видов зависимых переменных существуют собственные формы множественной регрессии, и соответственно меняется интерпретация получающихся коэффициентов[123].
Рассмотрим данные об операциях на сердце у детей, которые обсуждались в главе 2, где на рис. 2.5(a) показаны доли пациентов, переживших операцию, и количество операций, проведенных в каждой из больниц в 1991–1995 годах. На рис. 5.2 снова представлена точечная диаграмма и линия регрессии, которая построена без учета точки-выброса, соответствующей бристольской больнице.
Рис. 5.2
Модель логистической регрессии для данных об операциях на сердце у детей в возрасте до 1 года в больницах Соединенного Королевства в период с 1991 по 1995 год. В больницах, где больше пациентов, показатель выживаемости выше. Линия является частью кривой, которая никогда не достигнет 100 %, и не учитывает выброс, соответствующий бристольской больнице
Мы могли бы провести через эти точки прямую линейной регрессии, но тогда наивная экстраполяция говорила бы, что при очень большом количестве случаев выживаемость превысит 100 %, а это полный абсурд. Поэтому для показа долей была разработана логистическая регрессия, где кривая не выходит за рамки диапазона от 0 % до 100 %.
Даже без учета Бристоля в больницах с б
Этот спорный вывод, опубликованный в 2001 году, внес свою лепту в длительные, до сих пор продолжающиеся дискуссии о том, сколько больниц в Великобритании должны проводить подобные операции.