Разбираемся в ML без воды: от базы до Attention. Часть 5: Метрики качества
В четвертой части мы начали изучение задачи классификации и разобрали метод kNN.Мы уже дошли до той точки, когда можем построить худо-бедно работающий классификатор. Но если нас спросят: “а насколько хорошо он работает?”, то максимум, что мы пока сможем ответить — что-то вроде: “ну... на тестовой выборке модель правильно ответила в p% случаев”. С одной стороны, как гласит древняя пословица: лучше иметь 500 рублей, чем 200. Но гарантирует ли высокий p% качество модели?
Ваша модель показывает 95% accuracy и при этом бесполезна: метрики для несбалансированных классов
Классификатор мошеннических транзакций показывает accuracy 99.2%. Звучит отлично, пока не вспоминаешь, что мошеннических транзакций в датасете 0.8%. Модель, которая на каждый вход отвечает «не мошенничество», получит accuracy 99.2%. И будет абсолютно бесполезна, потому что не поймает ни одного мошенника.Это не гипотетический пример, несбалансированные классы давно являются нормой в реальных задачах. Precision и Recall: что модель ловит и чем платитВместо одной цифры accuracy нужны две: precision и recall.Recall
Как я дообучал модель на своих текстах после провала статьи на Хабре
Привет, Хабр.Это будет не типичная статья в стиле «10 причин, почему ИИ уже заменил копирайтеров», а история фэйла с человеческим лицом.Не так давно я выпустил на Хабре статью и вполне заслуженно собрал минусов и комментов, которые были очень в точку. Например
Быстрый поиск полезных внешних данных для улучшения точности ML модели в Python
Эта статья описывает пример как можно с помощью публичных Python библиотек быстро улучшить качество вашей ML модели за счет обогащения релевантными внешними данными. Введение

