CatBoost.

Разбираемся в ML без воды: от базы до Attention. Часть 11: Градиентный бустинг

В десятой части при изучении случайного леса мы наткнулись на проблему: переход от одиночного дерева к лесу частично снизил дисперсию, но вопрос со смещением остался открытым. Сегодня мы перейдем к концепции градиентного бустинга, которая позволяет последовательно сводить смещение к нулю, и заодно разберем, как заставить деревья эффективно учиться на ошибках своих "предшественников".Градиентный бустинг

продолжить чтение

Как глушить нефтяную скважину… машинным обучением. Часть 2, техническая

Продолжаю рассказывать широкой общественности об интересном ML проекте, результаты которого внедряются в реальный технологический процесс. В Первой части разобрались, что такое глушение и почему важно уметь рассчитывать объемы жидкостей глушения. В этой части будет непосредственно все то, как мы решали эту задачу с помощью МЛ:Построили двухконтурную систему: офлайн-обучение на XGBoost и CatBoost — и лeгкий онлайн-инференс через Flask.Вместо одного .fit()

продолжить чтение

Поиск черной кошки в 2000-мерной темной комнате. Турнир алгоритмов машинного обучения

ЭпиграфЭксперимент завершен. Результаты выглядят так, будто я немного сломал законы физики привычного табличного ML.Может быть это соревнование, которого не должно было быть?Это приглашение к репликации.Спрятать иголку в стоге сена? Да!Добро пожаловать на мой маленький тестовый полигон.

продолжить чтение

FlakyDetector 2.0: Один комментарий, который перевернул моё представление о нестабильных тестах

Как мы с вашей помощью добавили анализ фикстур, подняли размерность признаков до 42 и научились видеть order dependency до того, как она рушит CI

продолжить чтение

FlakyDetector 2.0: Как я превратил сырое исследование в продакшен-инструмент с AST, ML и красивым дашбордом…

— История о том, почему половина ваших тестов падает «сама по себе», и как я научился находить виновников по исходному коду. Лид: Час на перезапуск билда — это норма?Представь: пятница, вечер. Ты запускаешь CI для последнего пулл-реквеста, идёшь наливать кофе, возвращаешься… а билд упал. Один тест. Ты перезапускаешь проходит. «Флаки», — вздыхаешь ты и ставишь лейбл flaky. На следующей неделе история повторяется. Потом ещё раз.Мы привыкли, что нестабильные тесты — это неизбежное зло

продолжить чтение

Как закешировать интеллект: LLM Cache в поиске Яндекс Лавки

продолжить чтение

Как мы научили CatBoost находить борщевик на спутниковых снимках

продолжить чтение

ML и инфобез: три подхода для поиска аномалий во временных рядах

В этой статье будет продемонстрировано применение трёх ML алгоритмов (Isolation Forest, CatBoost, Autoencoder) к решению задачи детекции подозрительных событий в активности пользователей. Описание задачиПредставьте себе инфраструктуру крупной компании, где хранятся миллионы файлов. Сотрудники постоянно взаимодействуют с ними: читают, изменяют, создают новые. В этом непрерывном потоке событий крайне сложно вручную заметить признаки потенциальной угрозы — будь то инсайдер, копирующий данные, или вирус, массово шифрующий файлы.

продолжить чтение

Отказ от ответа в табличной классификации: max-prob, entropy и conformal sets на CatBoost

1) Зачем нужен "отказ от ответа"?В табличной классификации ошибка часто стоит дороже, чем “не знаю”. Поэтому вместо “модель всегда отвечает” полезнее режим selective classification (abstention): модель отвечает только когда уверена, а сомнительные случаи отправляет в ручную проверку / второй контур.Например: Антифрод (транзакции) :Ошибка → пропустили мошенника (прямой убыток). Отказ → транзакция уходит на дополнительную проверку (потеря UX/времени, но контролируемо). Кредитный скоринг (одобрить/отклонить):Ошибка → одобрили “плохого” клиента (риск дефолта). Отказ

продолжить чтение

Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

Привет, Хабр! Меня зовут Кореньков Александр, и я работаю в команде «Выгода и вовлечение» в направлении продуктовой аналитики онлайн-доставки в компании X5 Digital. Занимаюсь машинным обучением на стыке с продуктовой аналитикой: оцениваю эффективность маркетинговых механик и рекламных каналов, а после стараюсь помочь бизнесу принимать верные решения, основанные не на ощущениях, а на данных и результатах их анализа.

продолжить чтение

12