Сегодня, спустя много лет после прорыва Доуза, так удивлявший его современников статистический феномен хорошо изучен. Как мы уже объяснили ранее в этой книге, множественная регрессия вычисляет «оптимальные» весовые коэффициенты, которые минимизируют квадратичные ошибки. Однако при этом ошибки минимизируются
Проблема в том, что, когда формула применяется
Модели с перекрестной проверкой показывают наихудший результат, когда оригинальная выборка слишком мала, поскольку флуктуации в маленьких выборках принимают угрожающие размеры. Доуз обнаружил проблему: используемые в социологических исследованиях выборки обычно настолько малы, что теряется все преимущество так называемого оптимального взвешивания. Недаром статистик Говард Уэйнер снабдил научную статью, посвященную расчету правильных весов, подзаголовком «Нам без разницы»116а
. Или, как говорил Доуз, «нам не нужны117 модели настолько точные, что мы эту точность не можем измерить». Равновесные модели работают хорошо, потому что они нечувствительны к специфике конкретной выборки.Непосредственные выводы из работ Доуза получили заслуженное признание: вы можете давать эффективные статистические прогнозы, ничего не зная наперед об аналогичных предшествующих результатах. Все, что вам нужно, – это набор прогностических факторов, относительно которых вы можете быть уверены, что они коррелируют с конечным результатом.
Предположим, вам нужно спрогнозировать эффективность работы менеджеров, которым присвоены рейтинги по некоторому количеству параметров, как в примере из главы 9. Вы уверены, что набранные баллы оценивают определенные компетенции кандидатов, однако не имеете данных о том, насколько хорошо они прогнозируют будущий успех. Вы также не можете позволить себе роскошь ждать несколько лет, чтобы отследить успехи большой выборки менеджеров. Однако вы можете взять баллы по семи параметрам, проделать необходимую статистическую работу, чтобы присвоить им равные веса, и использовать результат в качестве прогноза. Насколько хороша эта равновесная модель? Ее корреляция с конечным результатом118
составляет 0,25 (ПС=58 %), что намного превосходит клинические оценки (r=0,15, ПС=55 %) и уверенно приближается к регрессивной модели с перекрестной проверкой. При этом вам не требуется никаких дополнительных данных, которых у вас нет, и никаких сложных вычислений.Действительно, в равных весах есть «грубая красота»119
– недаром высказывание Доуза стало мемом среди студентов. Заключительная фраза знаменитой статьи, которая ввела в обиход идею, содержала очередное лаконичное резюме: «Вся хитрость в том120, чтобы выбрать нужные переменные и правильно их сложить».Еще больше простоты: простые правила
Еще один способ упрощения – использование