несбалансированные данные.

Работа с несбалансированными данными: SMOTE мёртв, что работает

Бывали у вас датасеты, где класс «1» встречается в 100 раз реже класса «0»? У меня — постоянно. Модель радуется высокой точности, а на деле совершенно промахивается по редкому классу. Давайте обсудим, почему старый добрый SMOTE уже не торт, и что помогает в таких случаях. Дисбаланс данных как проблемаЕсли у вас 99 кошек и 1 собака, алгоритм, который всегда угадывает «кошка», получит 99% точности — и это ловушка. Классическая метрика accuracy тут бессмысленна, модель может совсем не узнавать собак, но всё равно быть якобы точной.

продолжить чтение

Rambler's Top100