Читаем Искусство статистики. Как находить ответы в данных полностью

На рис. 6.5 представлен калибровочный график для простого дерева классификации, использованного для тестового набора. Мы хотим, чтобы точки лежали ближе к диагонали (то есть заявленные вероятности соответствовали реальной доле наблюдений). Вертикальные отрезки означают области, в которых будет находиться реальная доля в 95 % случаев для данной предсказанной вероятности. Если они пересекают диагонали, как на рис. 6.5, мы можем считать, что наш алгоритм хорошо откалиброван.

Рис. 6.5

Калибровочный график для простого дерева классификации, дающего вероятности выживания при катастрофе «Титаника». По горизонтальной оси отложены прогнозы, по вертикальной – наблюдаемая доля выживших. Мы хотим, чтобы точки лежали на диагонали – это показывает, что вероятности надежны и означают именно то, о чем говорят

Комбинированное измерение «точности» для вероятностей

Хотя ROC-кривая оценивает, насколько хорошо алгоритм делит людей на группы, а калибровочный график показывает, означают ли вероятности то, о чем они говорят, было бы лучше найти какую-то простую комбинированную меру, объединяющую обе характеристики в одно число, которое мы могли бы использовать для сравнения алгоритмов. К счастью, синоптики еще в 1950-е годы придумали, как это сделать.

Если мы прогнозируем какую-нибудь числовую величину (например, температуру завтра в полдень в определенном месте), то точность прогноза обычно характеризуется ошибкой – разностью между предсказанной и реальной температурой. В отношении нескольких дней, как правило, вычисляют среднеквадратичную ошибку (MSE) – среднее значение квадратов отдельных ошибок; это аналог критерия наименьших квадратов, используемый в регрессионном анализе.

Особенность применения данного метода для вероятностей состоит в использовании критерия наименьших квадратов как при прогнозировании количества, но с учетом того, что будущее наблюдение дождя имеет значение 1, а его отсутствие – 0. Табл. 6.2 показывает, как это будет работать для некой вымышленной синоптической системы. Для понедельника вероятность дождя в прогнозе равнялась 0,1, но дождя не было (истинный отклик 0), поэтому ошибка составляет 0–0,1 = –0,1. При возведении в квадрат получим 0,01. Повторим это для всей недели. Тогда среднее арифметическое из всех ошибок B – мера точности прогнозов этого синоптика. В нашем случае B ≈ 0,11[131]. Такая среднеквадратичная ошибка известна как показатель Бриера (названа в честь метеоролога Гленна Бриера, который описал этот метод в 1950 году).

Таблица 6.2

Вымышленные прогнозы «вероятности осадков»: будет дождь завтра в полдень в определенном месте или нет. Наблюдаемые результаты: 1 = был дождь, 0 = дождя не было. «Ошибка» – это разность между прогнозом и наблюдением, а показатель Бриера B – это среднеквадратичная ошибка. Показатель Бриера BC для климатических данных основан на использовании средних долговременных данных для дождя в это время года, и в нашем случае предполагается, что вероятность дождя составит 20 % для всех дней

К сожалению, сам по себе показатель Бриера не так легко истолковать, а потому трудно определить, насколько квалифицированно работает тот или иной синоптик. Лучше всего сравнивать его с контрольным показателем, основанным на исторических записях о климате. Такие климатические прогнозы не учитывают текущих условий и просто оценивают вероятность осадков как долю тех случаев, когда в этот день шел дождь. Подобный прогноз может делать кто угодно без каких-либо навыков – в табл. 6.2 мы условно считаем, что для каждого дня на этой неделе вероятность дождя составит 20 %. Это даст нам показатель Бриера, рассчитанный по климатическим историческим данным (мы назвали его BC), равный 0,28.

Любой приличный алгоритм прогнозирования должен работать лучше того, который основан только на исторических данных для этого дня, и наша система действительно улучшила показатель Бриера: BC – B = 0,28 – 0,11 = 0,17. Затем синоптик получает оценку мастерства, которая отражает пропорциональное уменьшение контрольного показателя – в нашем случае 0,61[132]. Иными словами, наш алгоритм на 61 % лучше, чем примитивный метод, использующий только исторические данные о климате.

Конечно, идеальная цель – оценка 100 %, однако такое возможно только в случае, когда показатель Бриера равен 0, то есть мы абсолютно точно предсказываем, будет дождь или нет. Это требует от синоптика особого мастерства, и реальные оценки качества работы при прогнозировании дождя сейчас составляют около 0,4 для прогнозов на следующий день и 0,2 для недельного прогноза[133]. Конечно, самый ленивый прогноз – это просто сказать: все, что происходит сегодня, будет происходить и завтра. Это обеспечивает идеальное соответствие с историческими данными (сегодняшним днем), но для предсказания будущего не слишком эффективно.

Перейти на страницу:

Все книги серии МИФ. Научпоп

Как рождаются эмоции. Революция в понимании мозга и управлении эмоциями
Как рождаются эмоции. Революция в понимании мозга и управлении эмоциями

Как вы думаете, эмоции даны нам от рождения и они не что иное, как реакция на внешний раздражитель? Лиза Барретт, опираясь на современные нейробиологические исследования, открытия социальной психологии, философии и результаты сотен экспериментов, выяснила, что эмоции не запускаются – их создает сам человек. Они не универсальны, как принято думать, а различны для разных культур. Они рождаются как комбинация физических свойств тела, гибкого мозга, среды, в которой находится человек, а также его культуры и воспитания.Эта книга совершает революцию в понимании эмоций, разума и мозга. Вас ждет захватывающее путешествие по удивительным маршрутам, с помощью которых мозг создает вашу эмоциональную жизнь. Вы научитесь по-новому смотреть на эмоции, свои взаимоотношения с людьми и в конечном счете на самих себя.На русском языке публикуется впервые.

Лиза Фельдман Барретт

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература

Похожие книги

Бозон Хиггса
Бозон Хиггса

Джим Бэгготт, ученый, писатель, популяризатор науки, в своей книге подробно рассматривает процесс предсказания и открытия новой частицы – бозона Хиггса, попутно освещая такие вопросы фундаментальной физики, как строение материи, происхождение массы и энергии. Автор объясняет, что важность открытия частицы заключается еще и в том, что оно доказывает существование поля Хиггса, благодаря которому безмассовые частицы приобретают массу, что является необходимым условием для возникновения материи. Из книги вы узнаете о развитии физических теорий, начиная с античного понятия об атоме, и техническом прогрессе, позволившем их осуществить, а также историю обнаружения элементарных частиц.

Джим Бэгготт

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Физика / Прочая научная литература / Прочая справочная литература / Образование и наука / Словари и Энциклопедии
Происхождение человека и половой отбор
Происхождение человека и половой отбор

Многие из взглядов, здесь высказанных, имеют в высшей степени умозрительный характер  и некоторые из них, без сомнения, окажутся ошибочными; но во всяком отдельном случае я приводил основания, заставившие меня предпочесть один взгляд другому. Казалось, во всяком случае, стоящим внимания испытать, насколько принцип эволюции способен пролить свет на некоторые из сложнейших задач в естественной истории человека. Ложные факты в высшей степени вредны для прогресса науки, так как они часто долго признаются истинными; но ложные взгляды, если они поддержаны некоторыми доказательствами, приносят мало вреда, потому что   каждому доставляет спасительное удовольствие доказывать, в свою очередь, их ошибочность; а когда это сделано, то один из путей к заблуждению закрывается, и часто в то же время открывается путь к истине.   Главное заключение, здесь достигнутое, и теперь усвоенное многими  натуралистами, вполне способными к здравому суждению, состоит в том, что человек произошел от некоторой менее высокоорганизованной формы. Основания, на которых покоится это утверждение, никогда не будут потрясены: близкое сходство между человеком и низшими животными  в эмбриональном развитии, а также в бесчисленных чертах строения и   телосложения, как важных, так и самых мелких, вместе с удержанными им рудиментами и ненормальными возвратами, которым он порою  подвержен, - все это факты, не подлежащие спору.  Факты эти давно были известны, но до недавнего времени они ничего нам не говорили относительно происхождения человека. Теперь, когда  мы рассматриваем их при СВЕТЕ нашего знания о целом органическом мире, в их значении невозможно ошибиться. Великий принцип эволюции устанавливается ясно и прочно, когда  эти группы фактов рассматриваются в связи с другими, каково взаимное   сродство между членами одной и той же группы, их географическое распределение в прошлом и в настоящем и их геологическая последовательность. Невозможно поверить, чтобы все эти факты лжесвидетельствовали. Каждый, кто не довольствуется, подобно дикарю, взглядом на явления природы, как на события, не связанные между собою, не будет больше в состоянии допустить, что человек есть произведение отдельного акта сотворения.

Чарльз Роберт Дарвин

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература