Читаем Искусство статистики. Как находить ответы в данных полностью

Алгоритмы, которые дают не простую классификацию, а вероятность (или какое-то другое число), часто сравниваются с помощью ROC-кривых[130], которые изначально были разработаны во время Второй мировой войны для анализа радиолокационных сигналов. Ключевая идея – возможность варьировать пороговое значение, при котором дается прогноз выживания. В табл. 6.1 показан эффект использования порогового значения 50 % для прогноза выживания, при этом значения специфичности и чувствительности в тренировочном наборе соответственно равны 0,84 и 0,78. Однако мы могли бы потребовать более высокую вероятность для предсказания, что кто-то выживет, например 70 %; в этом случае специфичность и чувствительность составили бы 0,98 и 0,50 соответственно. При таком более строгом пороговом значении мы правильно определим только половину реально выживших, но зато сделаем о них очень мало ложных утверждений. Если взять все пороговые значения для предсказания выживания, то все возможные значения для специфичности и чувствительности образуют кривую. Обратите внимание, что при изображении ROC-кривой значения специфичности традиционно идут по горизонтальной оси, уменьшаясь от 1 до 0.

На рис. 6.4 изображены ROC-кривые для тренировочного и тестового набора. Если алгоритм распределяет числа случайным образом (то есть абсолютно бесполезен), то его ROC-кривая будет диагональной линией. У самых лучших алгоритмов ROC-кривые подходят близко к левому верхнему углу. Стандартный способ сравнения разных ROC-кривых – измерить площадь под ними. Для бесполезного алгоритма она равна 0,5, а для идеального – 1. Для нашего тестового набора для данных о «Титанике» площадь под кривой составляет 0,82. Оказывается, для этой площади есть изящная интерпретация: если мы выбираем истинно выжившего и истинно погибшего случайным образом, то с вероятностью 82 % алгоритм дает истинно выжившему большую вероятность выживания, чем истинно погибшему. Области свыше 0,80 представляют весьма хорошую эффективность разделения. Площадь под ROC-кривой – это способ измерить, насколько точно алгоритм отделяет выживших от погибших, но она не отражает сами вероятности. Категория специалистов, которые лучше всего знакомы с вероятностными прогнозами, – это синоптики.

Рис. 6.4

ROC-кривые для дерева классификации, приведенного на рис. 6.3, примененные к тренировочному (пунктирная линия) и тестовому (сплошная линия) набору данных. «Чувствительность» – доля правильно предсказанных выживших. «Специфичность» – доля правильно предсказанных погибших. Площади областей под кривыми равны 0,84 и 0,82 для тренировочного и тестового набора соответственно

Как узнать, насколько точны прогнозы «вероятности осадков»?

Предположим, мы хотим предсказать, будет ли завтра дождь в конкретном месте в конкретное время. Простейшие алгоритмы могут просто давать ответ в виде «да/нет», и он может оказаться правильным или неправильным. Более сложные модели могут выдавать вероятность дождя, что позволяет принимать более точные решения, ведь ваши действия при вероятности дождя в 50 % могут сильно отличаться от действий, если алгоритм выдаст 5-процентную вероятность.

На практике прогнозы погоды основываются на крайне сложных компьютерных моделях, которые включают подробные математические формулы, отображающие развитие погоды из текущего состояния, и каждый прогон модели дает детерминистский прогноз «да/нет» для дождя в конкретном месте на конкретное время. Поэтому для получения вероятностного прогноза модель нужно прогнать много раз при слегка различных начальных условиях, что создаст в итоге список различных «возможных вариантов будущего», где в некоторых вариантах пойдет дождь, а в некоторых – нет. Синоптики запускают ансамбль, скажем, из 50 моделей, и если дождь будет в 5 из них, то они говорят о вероятности осадков в 10 %.

Но как проверить, насколько хороши такие вероятности? Мы не можем создать простую матрицу ошибок, как в случае дерева классификации, потому что алгоритм никогда не утверждает категорически, пойдет дождь или нет. Мы можем начертить ROC-кривые, но они только показывают, получают ли дни с дождем более частые прогнозы, чем дни без дождя. Ключевая идея – необходимость в проверке-калибровке, то есть если мы возьмем все дни, когда синоптики говорили о вероятности дождя в 70 %, то дождь действительно должен идти примерно в 70 % таких дней. Синоптики относятся к этому очень серьезно – вероятности должны соответствовать фактам.

Так называемые калибровочные графики позволяют увидеть, насколько достоверны заявленные вероятности; на них показывается общее количество событий с конкретной вероятностью появления, и доля случаев, когда событие действительно произошло.

Перейти на страницу:

Все книги серии МИФ. Научпоп

Как рождаются эмоции. Революция в понимании мозга и управлении эмоциями
Как рождаются эмоции. Революция в понимании мозга и управлении эмоциями

Как вы думаете, эмоции даны нам от рождения и они не что иное, как реакция на внешний раздражитель? Лиза Барретт, опираясь на современные нейробиологические исследования, открытия социальной психологии, философии и результаты сотен экспериментов, выяснила, что эмоции не запускаются – их создает сам человек. Они не универсальны, как принято думать, а различны для разных культур. Они рождаются как комбинация физических свойств тела, гибкого мозга, среды, в которой находится человек, а также его культуры и воспитания.Эта книга совершает революцию в понимании эмоций, разума и мозга. Вас ждет захватывающее путешествие по удивительным маршрутам, с помощью которых мозг создает вашу эмоциональную жизнь. Вы научитесь по-новому смотреть на эмоции, свои взаимоотношения с людьми и в конечном счете на самих себя.На русском языке публикуется впервые.

Лиза Фельдман Барретт

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература

Похожие книги

Бозон Хиггса
Бозон Хиггса

Джим Бэгготт, ученый, писатель, популяризатор науки, в своей книге подробно рассматривает процесс предсказания и открытия новой частицы – бозона Хиггса, попутно освещая такие вопросы фундаментальной физики, как строение материи, происхождение массы и энергии. Автор объясняет, что важность открытия частицы заключается еще и в том, что оно доказывает существование поля Хиггса, благодаря которому безмассовые частицы приобретают массу, что является необходимым условием для возникновения материи. Из книги вы узнаете о развитии физических теорий, начиная с античного понятия об атоме, и техническом прогрессе, позволившем их осуществить, а также историю обнаружения элементарных частиц.

Джим Бэгготт

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Физика / Прочая научная литература / Прочая справочная литература / Образование и наука / Словари и Энциклопедии
Происхождение человека и половой отбор
Происхождение человека и половой отбор

Многие из взглядов, здесь высказанных, имеют в высшей степени умозрительный характер  и некоторые из них, без сомнения, окажутся ошибочными; но во всяком отдельном случае я приводил основания, заставившие меня предпочесть один взгляд другому. Казалось, во всяком случае, стоящим внимания испытать, насколько принцип эволюции способен пролить свет на некоторые из сложнейших задач в естественной истории человека. Ложные факты в высшей степени вредны для прогресса науки, так как они часто долго признаются истинными; но ложные взгляды, если они поддержаны некоторыми доказательствами, приносят мало вреда, потому что   каждому доставляет спасительное удовольствие доказывать, в свою очередь, их ошибочность; а когда это сделано, то один из путей к заблуждению закрывается, и часто в то же время открывается путь к истине.   Главное заключение, здесь достигнутое, и теперь усвоенное многими  натуралистами, вполне способными к здравому суждению, состоит в том, что человек произошел от некоторой менее высокоорганизованной формы. Основания, на которых покоится это утверждение, никогда не будут потрясены: близкое сходство между человеком и низшими животными  в эмбриональном развитии, а также в бесчисленных чертах строения и   телосложения, как важных, так и самых мелких, вместе с удержанными им рудиментами и ненормальными возвратами, которым он порою  подвержен, - все это факты, не подлежащие спору.  Факты эти давно были известны, но до недавнего времени они ничего нам не говорили относительно происхождения человека. Теперь, когда  мы рассматриваем их при СВЕТЕ нашего знания о целом органическом мире, в их значении невозможно ошибиться. Великий принцип эволюции устанавливается ясно и прочно, когда  эти группы фактов рассматриваются в связи с другими, каково взаимное   сродство между членами одной и той же группы, их географическое распределение в прошлом и в настоящем и их геологическая последовательность. Невозможно поверить, чтобы все эти факты лжесвидетельствовали. Каждый, кто не довольствуется, подобно дикарю, взглядом на явления природы, как на события, не связанные между собою, не будет больше в состоянии допустить, что человек есть произведение отдельного акта сотворения.

Чарльз Роберт Дарвин

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература