Дисбаланс классов.

Работа с несбалансированными данными: SMOTE мёртв, что работает

Бывали у вас датасеты, где класс «1» встречается в 100 раз реже класса «0»? У меня — постоянно. Модель радуется высокой точности, а на деле совершенно промахивается по редкому классу. Давайте обсудим, почему старый добрый SMOTE уже не торт, и что помогает в таких случаях. Дисбаланс данных как проблемаЕсли у вас 99 кошек и 1 собака, алгоритм, который всегда угадывает «кошка», получит 99% точности — и это ловушка. Классическая метрика accuracy тут бессмысленна, модель может совсем не узнавать собак, но всё равно быть якобы точной.

продолжить чтение

Советы по эффективному обучению ML-моделей

В ML-проектах достижение оптимальной эффективности моделей требует внимания к различным этапам процесса обучения. Но, прежде чем заниматься техническими аспектами обучения моделей, важно правильно описать решаемую задачу, важно понять особенности среды, в которой существует эта задача, важно хорошо проанализировать имеющийся набор данных.

продолжить чтение

Rambler's Top100