Вы также могли заметить, что общая погрешность быстро растет по мере отклонения оценки от среднего арифметического значения. Например, при отклонении оценки всего на 3 миллиметра, от 976 к 979, MSE удваивается. Это ее ключевое свойство: возведение в квадрат придает значительным погрешностям гораздо больший вес, чем незначительным.
Теперь вы понимаете, почему гауссовская формула измерения общей погрешности называется среднеквадратической ошибкой, а сам подход – методом наименьших квадратов. Метод базируется на возведении погрешностей в квадрат, и никакая другая формула не способна поддержать ваше интуитивное предположение, что лучшая оценка – это среднее арифметическое значение.
Другие математики быстро признали преимущества гауссовского метода. Сам же Гаусс среди множества прочих достижений использовал MSE (и другие математические открытия) для решения задачи, которая была не под силу лучшим астрономам Европы: повторного обнаружения Цереры – астероида, который ученые могли наблюдать лишь непродолжительное время, после чего в 1801 году он пропал из виду из-за ярких солнечных бликов. Астрономы пытались рассчитать траекторию движения Цереры, неправильно учитывая погрешность измерения своих телескопов, поэтому так и не обнаружили карликовую планету в точке, на которую указывали их расчеты. Гаусс исправил их вычисления при помощи метода наименьших квадратов. Направив телескопы в точку, указанную Гауссом, астрономы увидели Цереру!
Вскоре метод наименьших квадратов стал применяться учеными в самых различных дисциплинах. Спустя два века он остается стандартным способом оценить погрешность в любых вычислениях, требующих точности. В статистике без взвешивания квадратов погрешностей не обойтись, да и в других областях науки метод наименьших квадратов используется постоянно. Очень скоро мы с вами убедимся, что последствия применения этого подхода могут быть весьма неожиданными.
Уравнения расчета погрешности
Роль смещения и шума в возникновении погрешностей легко обобщить двумя выражениями, которые мы назовем
Второе уравнение расчета погрешности – это разложение на составные части среднеквадратической ошибки, уже знакомой нам меры общей погрешности. При использовании простых алгебраических действий44
среднеквадратическая ошибка может быть представлена как сумма квадратов смещения и шума. (Вспомните, что шум – стандартное отклонение в измерениях, идентичное стандартному отклонению шумных погрешностей.) Таким образом:Возможно, вид этого уравнения – сумма двух квадратов – напоминает вам известную со школьных лет теорему Пифагора. Как вы, вероятно, помните, в прямоугольном треугольнике сумма квадратов катетов равняется квадрату гипотенузы. Поэтому уравнение расчета погрешности можно визуализировать при помощи трех квадратов, стороны которых образуют стороны прямоугольного треугольника, при этом площади этих квадратов равны соответственно MSE, смещению2
и шуму2. Рисунок 7 показывает, что MSE (площадь темного квадрата) равняется сумме площадей двух других квадратов. На изображении слева шум больше, чем смещение; на изображении справа смещение больше, чем шум. Однако в обоих случаях MSE одинаковы, а уравнение расчета погрешности применимо к обоим изображениям.Математическое выражение и его визуализация показывают, что роли смещения и шума в уравнении расчета погрешности идентичны. При определении общей погрешности они взаимонезависимы и равновзвешенны. (Заметьте, что в последующих главах мы прибегнем к похожему разложению на сумму квадратов, анализируя составляющие шума.)
Уравнение расчета погрешности предлагает ответ на практический вопрос, заданный Эми: как изменится общая погрешность, если в одинаковой степени сократить уровень шума или смещения? Ответ на этот вопрос очевиден: в уравнении расчета погрешности смещение и шум взаимозаменяемы, поэтому независимо от того, какой из этих двух показателей мы уменьшим, снижение общей погрешности будет одинаковым. На рисунке 4, где смещение и шум оказались идентичными (по 10 %), их вклад в общую погрешность равнозначен.