Отказ от ответа в табличной классификации: max-prob, entropy и conformal sets на CatBoost
1) Зачем нужен "отказ от ответа"?В табличной классификации ошибка часто стоит дороже, чем “не знаю”. Поэтому вместо “модель всегда отвечает” полезнее режим selective classification (abstention): модель отвечает только когда уверена, а сомнительные случаи отправляет в ручную проверку / второй контур.Например: Антифрод (транзакции) :Ошибка → пропустили мошенника (прямой убыток). Отказ → транзакция уходит на дополнительную проверку (потеря UX/времени, но контролируемо). Кредитный скоринг (одобрить/отклонить):Ошибка → одобрили “плохого” клиента (риск дефолта). Отказ
Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital
Привет, Хабр! Меня зовут Кореньков Александр, и я работаю в команде «Выгода и вовлечение» в направлении продуктовой аналитики онлайн-доставки в компании X5 Digital. Занимаюсь машинным обучением на стыке с продуктовой аналитикой: оцениваю эффективность маркетинговых механик и рекламных каналов, а после стараюсь помочь бизнесу принимать верные решения, основанные не на ощущениях, а на данных и результатах их анализа.
Борьба с дисбалансом классов. Oversampling
ВведениеПривет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье
Осваиваем ML WAF: от текстовых правил к машинному обучению
Всем привет, меня зовут Семён. Я пишу на С++ и работаю в группе Антиробота. Антиробот — это сервис, который на уровне L7 защищает нас от парсеров и DDoS-атак. Разрабатывать его начали более 10 лет назад — сначала он предназначался только для защиты Поиска, затем был внутренним инструментом, который в онлайн‑режиме анализирует запросы к сервисам Яндекса. Постепенно Антиробот вырос в настоящий highload. Сейчас это часть облачного сервиса Smart Web Security (SWS).
XGBoost альтернатива CatBoost для работы с категориальными данными???
Кратко:22 сентября 2025г. вышла версия 3.10 XGBoost. Основной фишкой новой версии стал "категориальный ре-кодер(categorical re-coder)". Он сохраняет категории в модели и так же может перекодировать данные на этапе инференса. И целью этой статьи является сравнить возможности новой версии XGBoost c лидером обработки категориальных данных, CatBoost.Основные вопросы:Кто обучает на сырых данных?Что такое этот категориальный ре-кодер?Можно ли обучить модель полностью на сырых данных и получить приемлемый результат?
Борьба с дисбалансом классов. Undersampling
Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье
Лучшие фреймворки для машинного обучения в 2025 году
Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта.
Shap-графики: как наглядно объяснить заказчику логику работы модели
Всем привет. Я Андрей Бояренков, лидер кластера бизнес-моделей стрима "Разработка моделей КИБ и СМБ" банка ВТБ.Наш кластер отвечает за: - выстраивание и внедрение процессов AutoML,
Titanic + CatBoost (Первое решение, первый Jupyter Notebook)
#Импортируем все необходимые библиотеки import pandas as pd from catboost import CatBoostClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score import numpy as np import matplotlib.pyplot as plt import seaborn as sns import json # 🔕 Отключаем предупреждения, чтобы не загромождали вывод import warnings warnings.filterwarnings('ignore')

