CatBoost.

Как закешировать интеллект: LLM Cache в поиске Яндекс Лавки

продолжить чтение

Как мы научили CatBoost находить борщевик на спутниковых снимках

продолжить чтение

ML и инфобез: три подхода для поиска аномалий во временных рядах

В этой статье будет продемонстрировано применение трёх ML алгоритмов (Isolation Forest, CatBoost, Autoencoder) к решению задачи детекции подозрительных событий в активности пользователей. Описание задачиПредставьте себе инфраструктуру крупной компании, где хранятся миллионы файлов. Сотрудники постоянно взаимодействуют с ними: читают, изменяют, создают новые. В этом непрерывном потоке событий крайне сложно вручную заметить признаки потенциальной угрозы — будь то инсайдер, копирующий данные, или вирус, массово шифрующий файлы.

продолжить чтение

Отказ от ответа в табличной классификации: max-prob, entropy и conformal sets на CatBoost

1) Зачем нужен "отказ от ответа"?В табличной классификации ошибка часто стоит дороже, чем “не знаю”. Поэтому вместо “модель всегда отвечает” полезнее режим selective classification (abstention): модель отвечает только когда уверена, а сомнительные случаи отправляет в ручную проверку / второй контур.Например: Антифрод (транзакции) :Ошибка → пропустили мошенника (прямой убыток). Отказ → транзакция уходит на дополнительную проверку (потеря UX/времени, но контролируемо). Кредитный скоринг (одобрить/отклонить):Ошибка → одобрили “плохого” клиента (риск дефолта). Отказ

продолжить чтение

Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

Привет, Хабр! Меня зовут Кореньков Александр, и я работаю в команде «Выгода и вовлечение» в направлении продуктовой аналитики онлайн-доставки в компании X5 Digital. Занимаюсь машинным обучением на стыке с продуктовой аналитикой: оцениваю эффективность маркетинговых механик и рекламных каналов, а после стараюсь помочь бизнесу принимать верные решения, основанные не на ощущениях, а на данных и результатах их анализа.

продолжить чтение

Борьба с дисбалансом классов. Oversampling

ВведениеПривет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье

продолжить чтение

Осваиваем ML WAF: от текстовых правил к машинному обучению

Всем привет, меня зовут Семён. Я пишу на С++ и работаю в группе Антиробота. Антиробот — это сервис, который на уровне L7 защищает нас от парсеров и DDoS-атак. Разрабатывать его начали более 10 лет назад — сначала он предназначался только для защиты Поиска, затем был внутренним инструментом, который в онлайн‑режиме анализирует запросы к сервисам Яндекса. Постепенно Антиробот вырос в настоящий highload. Сейчас это часть облачного сервиса Smart Web Security (SWS).

продолжить чтение

XGBoost альтернатива CatBoost для работы с категориальными данными???

Кратко:22 сентября 2025г. вышла версия 3.10 XGBoost. Основной фишкой новой версии стал "категориальный ре-кодер(categorical re-coder)". Он сохраняет категории в модели и так же может перекодировать данные на этапе инференса. И целью этой статьи является сравнить возможности новой версии XGBoost c лидером обработки категориальных данных, CatBoost.Основные вопросы:Кто обучает на сырых данных?Что такое этот категориальный ре-кодер?Можно ли обучить модель полностью на сырых данных и получить приемлемый результат?

продолжить чтение

Борьба с дисбалансом классов. Undersampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье

продолжить чтение

Борьба с дисбалансом классов. Стандартные методы

продолжить чтение

12