confusion matrix.

Разбираемся в ML без воды: от базы до Attention. Часть 5: Метрики качества

В четвертой части мы начали изучение задачи классификации и разобрали метод kNN.Мы уже дошли до той точки, когда можем построить худо-бедно работающий классификатор. Но если нас спросят: “а насколько хорошо он работает?”, то максимум, что мы пока сможем ответить — что-то вроде: “ну... на тестовой выборке модель правильно ответила в p% случаев”. С одной стороны, как гласит древняя пословица: лучше иметь 500 рублей, чем 200. Но гарантирует ли высокий p% качество модели?

продолжить чтение

Ваша модель показывает 95% accuracy и при этом бесполезна: метрики для несбалансированных классов

Классификатор мошеннических транзакций показывает accuracy 99.2%. Звучит отлично, пока не вспоминаешь, что мошеннических транзакций в датасете 0.8%. Модель, которая на каждый вход отвечает «не мошенничество», получит accuracy 99.2%. И будет абсолютно бесполезна, потому что не поймает ни одного мошенника.Это не гипотетический пример, несбалансированные классы давно являются нормой в реальных задачах. Precision и Recall: что модель ловит и чем платитВместо одной цифры accuracy нужны две: precision и recall.Recall

продолжить чтение