Методы, описанные в этой главе, прекрасно работали с момента их появления более века назад. Однако доступность огромных объемов данных и колоссальное увеличение вычислительных мощностей позволили создать более сложные модели. В широком смысле различные группы исследователей используют четыре основные стратегии моделирования:
• Достаточно простые математические представления зависимостей, такие как описанные в этой главе линейные регрессии. Статистики, как правило, предпочитают именно их.
• Сложные детерминистские модели, основанные на научном понимании физических процессов, например, используемые при прогнозировании погоды. Они предназначены для реалистичного воспроизведения механизмов, лежащих в их основе, и разрабатываются, как правило, прикладными математиками.
• Сложные алгоритмы, используемые для принятия решений и прогнозов, основанных на анализе большого количества прошлых случаев – например, для рекомендации книг, которые вы, возможно, хотели бы купить в сетевом магазине. Создаются в мире компьютерных наук и машинного обучения. Они часто будут «черными ящиками» в том смысле, что могут делать хорошие прогнозы, но их внутренняя структура в какой-то степени непостижима (см. следующую главу).
• Регрессионные модели, которые делают заключения о причинно-следственных связях; за них выступают экономисты.
Это значительные обобщения. К счастью, профессиональные барьеры рушатся, и, как мы увидим позже, формируется все более универсальный подход к моделированию. Но какая бы стратегия ни была принята, при создании и использовании модели возникают общие проблемы.
Хорошая аналогия состоит в том, что модель похожа на карту, а не на саму территорию. Все мы знаем, что одни карты лучше, чем другие: простой карты может быть достаточно для поездки из одного города в другой, но для прогулки в сельской местности нужно что-то более подробное. Британский статистик Джордж Бокс прославился бесценным афоризмом: «Все модели неверны, но некоторые полезны». Это поучительное заявление основывалось на опыте применения статистики в промышленных процессах, который позволял Боксу оценивать и силу моделей, и опасности излишней веры в них.
Но такие предостережения легко забываются. Как только какая-то модель принимается (и особенно тогда, когда она уходит из рук создателей, понимающих ее ограничения), она может превратиться в своего рода оракула. Финансовый кризис 2007–2008 годов в значительной степени был вызван чрезмерным доверием к сложным финансовым моделям, которые использовались для определения рисков, например ипотечных пакетов. Эти модели предполагали лишь умеренную корреляцию между неисполнением обязательств по ипотеке и успешно работали, пока рынок недвижимости процветал. Но когда условия изменились и возникли проблемы с выплатами, оказалось, что проблемы начались по всем фронтам: модели сильно недооценили риски из-за корреляций, которые оказались намного выше, чем предполагалось. Руководители просто не поняли хрупкости фундамента, на котором строились эти модели, упустив из виду тот факт, что модели всего лишь упрощение реального мира, то есть
Выводы
• Регрессионные модели обеспечивают математическое представление отношений между набором независимых (объясняющих) переменных и зависимой переменной (переменной отклика).
• Коэффициенты в регрессионной модели показывают, какое изменение в отклике мы можем ожидать при изменении независимой переменной.
• Регресс к среднему наблюдается, когда отклонения возвращаются к долговременному среднему значению, поскольку такие выбросы были чисто случайными.
• Регрессионные модели могут включать различные виды зависимой и независимых переменных, а также нелинейные взаимосвязи.
• При интерпретации моделей нужно быть осторожным. Помните: «Все модели неверны, но некоторые полезны».
Глава 6. Алгоритмы, аналитика и прогнозирование