Читаем Разберись в Data Science полностью

Вы наносите на график исторические данные (левый график на рис. 9.2) и замечаете нечто, напоминающее линейный тренд. Чтобы провести линию через эти точки данных, вы можете использовать уравнение[83] Продажи = m(Температура) + b. Простое уравнение, подобное этому, является своего рода моделью[84]. Но как выбрать числа m (наклон линии) и b (точка пересечения с осью) для построения этой модели?

Рис. 9.2. Этим данным достаточно хорошо соответствует множество линий, но какая из них лучше? Определить это нам поможет линейная регрессия

Можно попробовать угадать. На среднем графике на рис. 9.2 показаны четыре возможные линии, и все эти предположения кажутся вполне разумными. Но это всего лишь предположения: как бы они ни были к этому близки, они не объясняют основополагающие взаимосвязи в данных.

Линейная регрессия предполагает выполнение вычислений для получения линии наилучшего соответствия. Под наилучшим соответствием мы подразумеваем то, что данная линия оптимальным образом объясняет имеющийся линейный тренд и разброс данных. Она представляет собой оптимальное решение, насколько это возможно с математической точки зрения с учетом предоставленных данных. На правом графике на рис. 9.2 показан результат применения линейной регрессии в виде уравнения: Продажи = 1,03 (Температура) – 71,07.

Давайте посмотрим, как это работает.

<p><emphasis>Регрессия методом наименьших квадратов: больше, чем умное название</emphasis></p>

Давайте на мгновение сосредоточимся на нашей выходной переменной – уровне продаж лимонада. Если бы мы хотели спрогнозировать объем будущих продаж, разумно было бы вычислить среднее значение для прошлых показателей (12 + 13 + 15 + 14 + 17 + 16 + 19) / 7 = 15,14 доллара. Итак, мы получили простую линейную модель, согласно которой Продажи = 15,14 доллара.

Обратите внимание на то, что это по-прежнему линейное уравнение, только без учета температуры. Это означает, что вне зависимости от температуры мы прогнозируем продажи на уровне 15,14 доллара. Мы знаем, что это весьма наивное предположение, но оно соответствует нашему определению модели, сопоставляющей входные данные с выходными, даже если все выходные данные являются одинаковыми.

Итак, насколько хороша наша простая модель? Чтобы оценить ее производительность, давайте подсчитаем, насколько далеко прогнозируемый уровень продаж находится от каждого из фактических показателей. При температуре 86 °F (30 °C) вы продали лимонада на 19 долларов, а модель предсказывала 15,14 доллара. При температуре 81 °F (27 °C) вы продали лимонада на 12 долларов, а прогноз модели опять же составлял 15,14 доллара. В первом случае прогноз оказался примерно на 4 доллара ниже фактического значения, а во втором – примерно на 3 доллара выше. На данный момент наша модель далека от идеала. И чтобы как следует оценить ее предсказательную способность, нам нужно понять разницу между прогнозом модели и тем, что произошло на самом деле. Эта разница называется погрешностью и показывает, насколько сильно прогнозное значение отклоняется от фактического.

Как же можно измерить эту погрешность, чтобы понять, насколько хорошо работает наша модель? Для этого мы могли бы взять каждую фактическую цену продажи и вычесть ее из среднего прогнозного значения, которое составляет 15,14 доллара. Однако в этом случае результат суммирования погрешностей всегда будет равен нулю, потому что среднее значение, которое мы используем в качестве предиктора, представляет собой арифметический центр этих точек. Итоговая разность между всеми этими точками и центральным значением всегда равна нулю.

Однако нам все-таки нужен какой-то способ агрегировать эти погрешности, поскольку модель явно далека от идеала. Наиболее распространен так называемый метод наименьших квадратов, который предполагает возведение всех значений разности в квадрат для того, чтобы сделать их положительными[85]. При суммировании этих чисел результат не будет равен нулю (такое возможно, только если в наших данных вообще нет погрешностей). Полученный результат мы называем суммой квадратов.

Рассмотрим рис. 9.3(а). На нем вы видите исходную диаграмму рассеяния, где x = Температура, а y = Продажи. Обратите внимание: мы применили здесь нашу наивную модель, прогнозное значение которой не зависит от температуры и всегда равно 15,14, что дает нам горизонтальную линию Продажи = 15,14. Другими словами: точка данных с температурой = 86 (30 °C) и фактическим значением продаж = 19 соответствует прогнозному значению продаж = 15,14. Сплошная вертикальная линия показывает разницу между фактическим и прогнозным значением для этой точки (и всех остальных точек). При использовании регрессии мы возводим длину этой линии в квадрат, чтобы получить квадрат с площадью 14,9.

Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных