где набор данных содержит
Чтобы создать линейную регрессионную модель прогнозирования, которая оценивает вероятность развития диабета у человека с учетом его ИМТ, мы заменяем
Значение угла наклона прямой = 0,55593 указывает на то, что для каждого увеличения ИМТ на 1 единицу модель увеличивает предполагаемую вероятность развития диабета у человека чуть более чем на 0,5 %. Чтобы предсказать вероятность развития диабета у человека, мы просто вводим его значение ИМТ в модель. Например, когда ИМТ = 20, модель возвращает прогноз 3,73 % для атрибута «Диабет», а для ИМТ = 21 модель прогнозирует 4,29 % вероятности[15].
Линейная регрессия, использующая метод наименьших квадратов, рассчитывает средневзвешенное значение для объектов. Фактически значение сдвига линии по вертикали ω
Взвешивание объектов основано на их расстоянии от линии — чем дальше объект находится от линии, тем его отклонение выше и алгоритм будет взвешивать экземпляр по квадрату этого отклонения. Как следствие, объекты, которые имеют экстремальные значения (выбросы), могут оказать непропорционально большое влияние на процесс вычерчивания линии, в результате чего она будет удалена от других объектов. Поэтому перед использованием метода наименьших квадратов важно проверить наличие выбросов в наборе данных.
Модели линейной регрессии могут быть расширены, чтобы принимать несколько входных значений. Новый параметр добавляется в модель для каждого нового входного атрибута, а уравнение обновляется, чтобы суммировать результат умножения нового атрибута. Например, чтобы расширить модель для включения в нее в качестве входных данных атрибутов веса и времени, затраченного на физические упражнения, структура функции регрессии станет такой:
В статистике функция регрессии, которая прогнозирует переменную на основе нескольких факторов, называется функцией множественной линейной регрессии. Структура функции такой регрессии является основой для ряда алгоритмов машинного обучения, включая и нейронные сети.
Между корреляцией и регрессией наблюдаются сходства, поскольку и та и другая представляют собой техники, сосредоточенные на выявлении зависимостей между столбцами в наборе данных. Корреляция ищет взаимосвязь между двумя атрибутами, а регрессия сосредоточена на прогнозировании значений зависимой переменной при нескольких входных атрибутах. В частных случаях коэффициент корреляции Пирсона измеряет степень линейной зависимости двух атрибутов, а линейная регрессия, обученная по методу наименьших квадратов, представляет собой процесс поиска линии наилучшего соответствия, которая прогнозирует значение одного атрибута при заданном значении другого.
Нейронная сеть состоит из нейронов, соединенных друг с другом. Нейрон принимает набор числовых значений в качестве входных данных и сопоставляет их с одним выходным значением. По своей сути нейрон — это функция линейной регрессии с несколькими входами. Единственное существенное различие состоит в том, что в нейроне выходной сигнал определяется другой функцией, которая называется функцией активации.