Читаем Оценка качества моделей машинного обучения: выбор, интерпретация и применение метрик полностью

Важно учитывать, что эти диапазоны являются общими ориентирами и могут варьироваться в зависимости от конкретной области применения и задачи. Например, в критически важных областях, таких как медицинская диагностика, требуется более высокая точность и полнота, чем в менее критических сценариях, таких как рекомендации контента.

Метрика Accuracy (Точность)

Метрика Accuracy (Точность) является одной из наиболее базовых и понятных метрик для оценки качества работы алгоритма классификации. Она измеряет долю правильно классифицированных объектов относительно общего числа объектов в наборе данных.

Метрика Accuracy рассчитывается следующим образом:

Accuracy = (TP + TN) / (TP + TN + FP + FN)

где:

TP (True Positives) – количество правильно классифицированных положительных объектов;

TN (True Negatives) – количество правильно классифицированных отрицательных объектов;

FP (False Positives) – количество неправильно классифицированных положительных объектов (ложные срабатывания);

FN (False Negatives) – количество неправильно классифицированных отрицательных объектов (пропущенные срабатывания).

Accuracy принимает значения в диапазоне от 0 до 1 (или от 0% до 100%). Чем ближе значение Accuracy к 1 (или 100%), тем лучше работает алгоритм классификации.

Однако, стоит отметить, что метрика Accuracy не всегда является оптимальным выбором для оценки качества классификации, особенно если в наборе данных есть сильный дисбаланс классов. В таких случаях использование других метрик, таких как Precision, Recall или F1-score, может быть более информативным и адекватным.

Пример № 1:

Пусть у нас есть 100 пациентов, из которых 90 здоровы, и 10 больны. Модель правильно классифицирует всех 90 здоровых пациентов и 10 больных пациентов. В этом случае:

TP (True Positives) = 10 (правильно классифицированные больные пациенты)

TN (True Negatives) = 90 (правильно классифицированные здоровые пациенты)

FP (False Positives) = 0 (нет ошибок при классификации здоровых пациентов)

FN (False Negatives) = 0 (нет ошибок при классификации больных пациентов)

Теперь рассчитаем Accuracy:

Accuracy = (TP + TN) / (TP + TN + FP + FN) = (10 + 90) / (10 + 90 + 0 + 0) = 100 / 100 = 1.0 или 100%

В данном примере точность модели составляет 100%.

Пример № 2:

В задаче классификации картинок с котами и собаками у нас есть 1000 картинок, и модель правильно классифицировала 900 из них. Допустим, 500 картинок изображают котов, а другие 500 – собак. Пусть модель правильно классифицировала 450 картинок с котами и 450 картинок с собаками. В этом случае:

TP (True Positives) = 450 (правильно классифицированные картинки с котами)

TN (True Negatives) = 450 (правильно классифицированные картинки с собаками)

FP (False Positives) = 50 (картинки с собаками, классифицированные как коты)

FN (False Negatives) = 50 (картинки с котами, классифицированные как собаки)

Теперь рассчитаем Accuracy:

Accuracy = (TP + TN) / (TP + TN + FP + FN) = (450 + 450) / (450 + 450 + 50 + 50) = 900 / 1000 = 0.9 или 90%

В данном примере точность модели составляет 90%.

Метрика Precision (Точность)

Метрика Precision (Точность) – это одна из метрик качества работы алгоритма классификации, которая показывает, насколько точно модель предсказывает положительный класс. Precision фокусируется на правильно классифицированных положительных объектах и ложных срабатываниях (ложноположительные результаты).

Метрика Precision рассчитывается следующим образом:

Precision = TP / (TP + FP)

где:

TP (True Positives) – количество правильно классифицированных положительных объектов;

FP (False Positives) – количество неправильно классифицированных положительных объектов (ложные срабатывания).

Precision принимает значения в диапазоне от 0 до 1 (или от 0% до 100%). Чем ближе значение Precision к 1 (или 100%), тем точнее модель предсказывает положительный класс.

Важно отметить, что метрика Precision не учитывает ошибки второго рода, то есть пропущенные срабатывания (False Negatives). В некоторых ситуациях, особенно когда пропущенные срабатывания могут иметь серьезные последствия (например, в медицинской диагностике), лучше использовать другие метрики, такие как Recall (полнота) или F1-score, которые учитывают и ошибки первого, и второго рода.

Пример № 1: В задаче определения спам-писем почты, модель может быть настроена таким образом, чтобы допустить только небольшое количество ложных срабатываний. Если модель правильно определила 10 спам-писем из 15, то точность модели для класса спам будет 66.7%.

давайте распишем пошаговое решение для метрики Precision (Точность) на примере № 1:

Определите класс, для которого вы хотите рассчитать точность. В данном примере это класс "спам".

Разделите все примеры на 4 категории: True Positive (TP), False Positive (FP), True Negative (TN) и False Negative (FN). В данном примере это:

TP: модель правильно определила спам-письмо как спам (10 писем).

FP: модель неправильно определила не спам-письмо как спам (5 писем).

Перейти на страницу:

Похожие книги

Управление дебиторской задолженностью
Управление дебиторской задолженностью

Эта книга – ценный источник советов по грамотному управлению дебиторской задолженностью. С ее помощью вы узнаете все необходимое о кредитной политике предприятия, правилах заключения договора и правилах торговли, организации службы финансовой безопасности фирмы. Рекомендации, приведенные в книге, позволят вам оценить реальный размер дебиторской задолженности, с легкостью разобраться с предприятиями-должниками и, что самое главное, выявить потенциальных должников.Советы по «возврату долгов» основаны на многолетнем практическом опыте автора и представлены в виде сценариев, ориентированных на различные ситуации. Клиенты бывают разными, и зачастую их не выбирают, поэтому для кредитного контролера крайне важно суметь найти подход к каждомуКнига рассчитана на широкий круг читателей – в первую очередь тех, кто вынужден бороться со «злостными неплательщиками».

Светлана Геннадьевна Брунгильд , Сергей Каледин

Карьера, кадры / Юриспруденция / Бухучет и аудит / О бизнесе популярно / Менеджмент / Образование и наука / Финансы и бизнес
PR: 100 вопросов – 100 ответов
PR: 100 вопросов – 100 ответов

Не секрет, что тем, кто избрал связи с общественностью своим поприщем, зачастую, особенно в начале профессионального пути, да и в дальнейшей работе не хватает знаний и практического опыта, чтобы успешно решать поставленные работодателем задачи. Разумеется, найти ответы на возникшие вопросы можно в специальных книгах, которых написано уже достаточно много.Но еще полезнее в таких ситуациях – обратиться за помощью и советом к более опытным коллегам, которые, в отличие от некоторых авторов книг, не понаслышке знают обо всех реалиях и нюансах профессии. Которые, что называется, на собственной шкуре испытали все прелести непростого труда пиарщика, приходили к верным решениям через пробы и ошибки и, в конце концов, добивались успеха.Их толковый и обстоятельный рассказ, в котором достаточно конкретных примеров и отнюдь не досужих размышлений – это самое ценное, что может получить попавший в затруднительное положение новичок.Книга "PR: 100 вопросов – 100 ответов" как раз и содержит в себе это ценное – опыт и знания профессионалов. Книга представляет собой сборник материалов, опубликованных в последние несколько лет в журнале "Советник" в одноименной рубрике. Тексты подготовлены редакцией на основе ответов экспертов Портала Sovetnik.ru на насущные вопросы пользователей, касающихся актуальных проблем практической деятельности в сфере связей с общественностью.

авторов Коллектив , Коллектив авторов

Маркетинг, PR / Маркетинг, PR, реклама / О бизнесе популярно / Финансы и бизнес
Как быстро заработать деньги в Интернет
Как быстро заработать деньги в Интернет

С помощью этой книги вы сможете заработать в Интернете солидный капитал. Быстро! Всемирно известный автор книг о Секрете притяжения любых благ – успеха, счастья, богатства – Джо Витале расскажет о своих секретах ведения бизнеса в Интернете. В этой книге нет сложной технической информации – в ней описывается, как с помощью простых и эффективных методов можно значительно повысить уровень продаж в любом интернет-магазине, какие бы товары или услуги в нем ни предлагались. Вы узнаете, как можно заработать на интернет-аукционах, партнерских программах, на сайтах социальных сетей, а также на любой информации, которой вы располагаете. Вы научитесь создавать гипнотические тексты для своего веб-сайта и завоевывать доверие пользователей. Книга написана доступным языком и предназначена для читателей любого уровня подготовки.

Джиллиан Коулмен Уиллер , Джо Витале

Маркетинг, PR, реклама / О бизнесе популярно / Финансы и бизнес / Карьера, кадры