Читаем Оценка качества моделей машинного обучения: выбор, интерпретация и применение метрик полностью

TN: модель правильно определила не спам-письмо как не спам (0 писем).

FN: модель неправильно определила спам-письмо как не спам (0 писем).

Рассчитайте точность как отношение TP к общему числу положительных ответов (TP + FP):

Precision = TP / (TP + FP) = 10 / (10 + 5) = 0.667 = 66.7%

Таким образом, в данном примере модель правильно определила 10 из 15 спам-писем, что соответствует точности в 66.7%.

Пример № 2:

В задаче классификации новостей на две категории – политика и спорт – модель классифицировала 200 статей, из которых 150 статей по политике и 50 статей по спорту. Модель правильно определила 120 статей по политике и 40 статей по спорту. Однако, 30 статей по политике модель неправильно классифицировала как спортивные статьи, а 10 спортивных статей – как статьи по политике. Рассчитаем метрику Precision для класса "политика".

Определите класс, для которого вы хотите рассчитать точность. В данном примере это класс "политика".

Разделите все примеры на 4 категории: True Positive (TP), False Positive (FP), True Negative (TN) и False Negative (FN). В данном примере это:

TP: модель правильно определила статью по политике как статью по политике (120 статей).

FP: модель неправильно определила спортивную статью как статью по политике (10 статей).

TN: модель правильно определила спортивную статью как спортивную (40 статей). Значение TN не важно для расчета Precision, поскольку оно не учитывается в формуле.

FN: модель неправильно определила статью по политике как спортивную статью (30 статей). Значение FN также не важно для расчета Precision.

Рассчитайте точность как отношение TP к общему числу положительных ответов (TP + FP): Precision = TP / (TP + FP) = 120 / (120 + 10) = 120 / 130 = 0.923 = 92.3%

Таким образом, в данном примере модель правильно определила 120 из 130 статей, которые были классифицированы как статьи по политике. Точность модели для класса "политика" составляет 92.3%.

Метрика Recall (Полнота)

Метрика Recall (Полнота) – это одна из метрик качества работы алгоритма классификации, которая показывает, какую долю объектов положительного класса модель смогла правильно классифицировать. Recall фокусируется на правильно классифицированных положительных объектах и пропущенных срабатываниях (ложноотрицательные результаты).

Метрика Recall рассчитывается следующим образом:

Recall = TP / (TP + FN)

где:

TP (True Positives) – количество правильно классифицированных положительных объектов;

FN (False Negatives) – количество неправильно классифицированных положительных объектов (пропущенные срабатывания).

Recall принимает значения в диапазоне от 0 до 1 (или от 0% до 100%). Чем ближе значение Recall к 1 (или 100%), тем лучше модель справляется с задачей распознавания положительного класса.

Важно отметить, что метрика Recall не учитывает ложные срабатывания (False Positives). В некоторых случаях, когда ложные срабатывания могут иметь серьезные последствия, например, в задачах определения спам-писем, лучше использовать другие метрики, такие как Precision (точность) или F1-score, которые учитывают и ошибки первого, и второго рода.


Пример № 1:

Пример № 1: В задаче классификации писем на спам и не спам, модель должна максимизировать количество обнаруженных спам-писем. Если модель правильно определила 80 из 100 спам-писем, то полнота модели для класса "спам" будет 80%.

Давайте рассмотрим пошаговое решение для метрики Recall (Полнота) на примере № 1:

Определите класс, для которого вы хотите рассчитать полноту. В данном примере это класс "спам".

Разделите все примеры на 4 категории: True Positive (TP), False Positive (FP), True Negative (TN) и False Negative (FN). В данном примере это:

TP: модель правильно определила спам-письмо как спам (80 писем).

FP: модель неправильно определила не спам-письмо как спам (20 писем).

FN: модель неправильно определила спам-письмо как не спам (20 писем).

Рассчитайте полноту как отношение TP к общему числу положительных примеров (TP + FN):

Recall = TP / (TP + FN) = 80 / (80 + 20) = 0.8 = 80%

Таким образом, в данном примере модель правильно определила 80 из 100 спам-писем, что соответствует полноте в 80%.

Пример № 2: Представьте, что вы работаете аналитиком в интернет-магазине, который хочет улучшить свой алгоритм рекомендаций товаров пользователям. Вы хотите проверить, насколько хорошо работает текущий алгоритм и решаете посчитать метрику полноты для одной из категорий товаров – "электроника".

Для этого вы берете случайную выборку из 200 пользователей, которые просмотрели товары в категории "электроника" на вашем сайте за последний месяц. После того, как вы применили алгоритм рекомендаций, вы получили следующие результаты:

Из 200 пользователей 120 купили хотя бы один рекомендованный товар в категории "электроника" (TP).

Из 200 пользователей 80 не купили ни одного рекомендованного товара в категории "электроника" (FN).

Рассчитайте метрику полноты (recall) для категории "электроника".

Решение:

Перейти на страницу:

Похожие книги

Управление дебиторской задолженностью
Управление дебиторской задолженностью

Эта книга – ценный источник советов по грамотному управлению дебиторской задолженностью. С ее помощью вы узнаете все необходимое о кредитной политике предприятия, правилах заключения договора и правилах торговли, организации службы финансовой безопасности фирмы. Рекомендации, приведенные в книге, позволят вам оценить реальный размер дебиторской задолженности, с легкостью разобраться с предприятиями-должниками и, что самое главное, выявить потенциальных должников.Советы по «возврату долгов» основаны на многолетнем практическом опыте автора и представлены в виде сценариев, ориентированных на различные ситуации. Клиенты бывают разными, и зачастую их не выбирают, поэтому для кредитного контролера крайне важно суметь найти подход к каждомуКнига рассчитана на широкий круг читателей – в первую очередь тех, кто вынужден бороться со «злостными неплательщиками».

Светлана Геннадьевна Брунгильд , Сергей Каледин

Карьера, кадры / Юриспруденция / Бухучет и аудит / О бизнесе популярно / Менеджмент / Образование и наука / Финансы и бизнес
PR: 100 вопросов – 100 ответов
PR: 100 вопросов – 100 ответов

Не секрет, что тем, кто избрал связи с общественностью своим поприщем, зачастую, особенно в начале профессионального пути, да и в дальнейшей работе не хватает знаний и практического опыта, чтобы успешно решать поставленные работодателем задачи. Разумеется, найти ответы на возникшие вопросы можно в специальных книгах, которых написано уже достаточно много.Но еще полезнее в таких ситуациях – обратиться за помощью и советом к более опытным коллегам, которые, в отличие от некоторых авторов книг, не понаслышке знают обо всех реалиях и нюансах профессии. Которые, что называется, на собственной шкуре испытали все прелести непростого труда пиарщика, приходили к верным решениям через пробы и ошибки и, в конце концов, добивались успеха.Их толковый и обстоятельный рассказ, в котором достаточно конкретных примеров и отнюдь не досужих размышлений – это самое ценное, что может получить попавший в затруднительное положение новичок.Книга "PR: 100 вопросов – 100 ответов" как раз и содержит в себе это ценное – опыт и знания профессионалов. Книга представляет собой сборник материалов, опубликованных в последние несколько лет в журнале "Советник" в одноименной рубрике. Тексты подготовлены редакцией на основе ответов экспертов Портала Sovetnik.ru на насущные вопросы пользователей, касающихся актуальных проблем практической деятельности в сфере связей с общественностью.

авторов Коллектив , Коллектив авторов

Маркетинг, PR / Маркетинг, PR, реклама / О бизнесе популярно / Финансы и бизнес
Как быстро заработать деньги в Интернет
Как быстро заработать деньги в Интернет

С помощью этой книги вы сможете заработать в Интернете солидный капитал. Быстро! Всемирно известный автор книг о Секрете притяжения любых благ – успеха, счастья, богатства – Джо Витале расскажет о своих секретах ведения бизнеса в Интернете. В этой книге нет сложной технической информации – в ней описывается, как с помощью простых и эффективных методов можно значительно повысить уровень продаж в любом интернет-магазине, какие бы товары или услуги в нем ни предлагались. Вы узнаете, как можно заработать на интернет-аукционах, партнерских программах, на сайтах социальных сетей, а также на любой информации, которой вы располагаете. Вы научитесь создавать гипнотические тексты для своего веб-сайта и завоевывать доверие пользователей. Книга написана доступным языком и предназначена для читателей любого уровня подготовки.

Джиллиан Коулмен Уиллер , Джо Витале

Маркетинг, PR, реклама / О бизнесе популярно / Финансы и бизнес / Карьера, кадры