Читаем Большая Советская энциклопедия (РЕ) полностью

Большая Советская энциклопедия (РЕ)

Предварительное представление о форме графика зависимости g(x) от х можно получить по расположению на диаграмме рассеяния (называемой также корреляционным полем, если обе переменные случайные) точек (x_i, (x_i)), где (x_i) — средние арифметические тех значений у, которые соответствуют фиксированному значению x_i. Например, если расположение этих точек близко к прямолинейному, то допустимо использовать в качестве приближения линейную регрессию. Стандартный метод оценки линии регрессии основан на использовании полиномиальной модели (m ³ 1)

y(x, b) = b₀ + b₁x + ... + b_mx^m

(этот выбор отчасти объясняется тем, что всякую непрерывную на некотором отрезке функцию можно приблизить полиномом с любой наперёд заданной степенью точности). Оценка неизвестных коэффициентов регрессии b₀, ..., b_m и неизвестной дисперсии s² осуществляется наименьших квадратов методом. Оценки параметров b₀, ..., b_m, полученные этим методом, называются выборочными коэффициентами регрессии, а уравнение

определяет т. н. эмпирическую линию регрессии. Этот метод в предположении нормальной распределённости результатов наблюдений приводит к оценкам для b₀, ..., b_m и s², совпадающим с оценками наибольшего правдоподобия (см. Максимального правдоподобия метод). Оценки, полученные этим методом, оказываются в некотором смысле наилучшими и в случае отклонения от нормальности. Так, если проверяется гипотеза о линейной регрессии, то

, ,

где и — средние арифметические значений x_i и y_i, и оценка будет несмещенной для g(х), а её дисперсия будет меньше, чем дисперсия любой другой линейной оценки. При допущении, что величины y_i нормально распределены, наиболее эффективно осуществляется проверка точности построенной эмпирической регрессионной зависимости и проверка гипотез о параметрах регрессионной модели. В этом случае построение доверительных интервалов для истинных коэффициентов регрессии b₀, ..., b_m и проверка гипотезы об отсутствии регрессионной связи b_i = 0, i = 1, ..., m) производится с помощью Стьюдента распределения.

В более общей ситуации результаты наблюдений y₁, ..., y_n рассматриваются как независимые случайные величины с одинаковыми дисперсиями и математическими ожиданиями

Ey_i, = b₁ x_1i+ ... + b_kx_ki, i = 1, ..., n,

где значения x_ji, j = 1, ..., k предполагаются известными. Эта форма линейной модели регрессии является общей в том смысле, что к ней сводятся модели более высоких порядков по переменным x₁, ..., x_k. Кроме того, некоторые нелинейные относительно параметров b_i; модели подходящим преобразованием также сводятся к указанной линейной форме.

Р. а. является одним из наиболее распространённых методов обработки результатов наблюдений при изучении зависимостей в физике, биологии, экономике, технике и др. областях. На модели Р. а. основаны такие разделы математической статистики, как дисперсионный анализ и планирование эксперимента; модели Р. а. широко используются в статистическом анализе многомерном.

Лит.: Юл Дж. Э., Кендэл М. Дж., Теория статистики, пер. с англ., 14 изд., М., 1960; Смирнов Н. В., Дунин-Барковский И. В., Курс теории вероятностей и математической статистики для технических приложений, 3 изд., М., 1969; Айвазян С. А., Статистическое исследование зависимостей, М., 1968; Рао С. Р., Линейные статистические методы и их применения, пер. с англ., М., 1968. См. также лит. при ст. Регрессия.

А. В. Прохоров.

Регрессия (математич.)

Регре'ссия в теории вероятностей и математической статистике, зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин. В отличие от чисто функциональной зависимости у = f(х), когда каждому значению независимой переменной х соответствует одно определённое значение величины у, при регрессионной связи одному и тому же значению х могут соответствовать в зависимости от случая различные значения величины у. Если при каждом значении х = x_i наблюдается n_i, значений y_i₁, ..., величины у, то зависимость средних арифметических от x_i и является Р. в статистическом понимании этого термина. Примером такого рода зависимости служит, в частности, зависимость средних диаметров сосен от их высот; см. табл. в ст. Корреляция.

Изучение Р. в теории вероятностей основано на том, что случайные величины Х и Y, имеющие совместное распределение вероятностей, связаны вероятностной зависимостью: при каждом фиксированном значении Х = х величина Y является случайной величиной с определённым (зависящим от значения х) условным распределением вероятностей. Р. величины Y по величине Х определяется условным математическим ожиданием Y, вычисленным при условии, что Х = х: