CatBoost.

Разбираемся в ML без воды: от базы до Attention. Часть 11: Градиентный бустинг

В десятой части при изучении случайного леса мы наткнулись на проблему: переход от одиночного дерева к лесу частично снизил дисперсию, но вопрос со смещением остался открытым. Сегодня мы перейдем к концепции градиентного бустинга, которая позволяет последовательно сводить смещение к нулю, и заодно разберем, как заставить деревья эффективно учиться на ошибках своих "предшественников".Градиентный бустинг

продолжить чтение

Оставлено в

Как глушить нефтяную скважину… машинным обучением. Часть 2, техническая

Продолжаю рассказывать широкой общественности об интересном ML проекте, результаты которого внедряются в реальный технологический процесс. В Первой части разобрались, что такое глушение и почему важно уметь рассчитывать объемы жидкостей глушения. В этой части будет непосредственно все то, как мы решали эту задачу с помощью МЛ:Построили двухконтурную систему: офлайн-обучение на XGBoost и CatBoost — и лeгкий онлайн-инференс через Flask.Вместо одного .fit()

продолжить чтение

Оставлено в

Поиск черной кошки в 2000-мерной темной комнате. Турнир алгоритмов машинного обучения

ЭпиграфЭксперимент завершен. Результаты выглядят так, будто я немного сломал законы физики привычного табличного ML.Может быть это соревнование, которого не должно было быть?Это приглашение к репликации.Спрятать иголку в стоге сена? Да!Добро пожаловать на мой маленький тестовый полигон.

продолжить чтение

Оставлено в

FlakyDetector 2.0: Один комментарий, который перевернул моё представление о нестабильных тестах

Как мы с вашей помощью добавили анализ фикстур, подняли размерность признаков до 42 и научились видеть order dependency до того, как она рушит CI

продолжить чтение

Оставлено в

FlakyDetector 2.0: Как я превратил сырое исследование в продакшен-инструмент с AST, ML и красивым дашбордом…

— История о том, почему половина ваших тестов падает «сама по себе», и как я научился находить виновников по исходному коду. Лид: Час на перезапуск билда — это норма?Представь: пятница, вечер. Ты запускаешь CI для последнего пулл-реквеста, идёшь наливать кофе, возвращаешься… а билд упал. Один тест. Ты перезапускаешь проходит. «Флаки», — вздыхаешь ты и ставишь лейбл flaky. На следующей неделе история повторяется. Потом ещё раз.Мы привыкли, что нестабильные тесты — это неизбежное зло

продолжить чтение

Оставлено в

Как закешировать интеллект: LLM Cache в поиске Яндекс Лавки

продолжить чтение

Оставлено в

Как мы научили CatBoost находить борщевик на спутниковых снимках

продолжить чтение

Оставлено в

ML и инфобез: три подхода для поиска аномалий во временных рядах

В этой статье будет продемонстрировано применение трёх ML алгоритмов (Isolation Forest, CatBoost, Autoencoder) к решению задачи детекции подозрительных событий в активности пользователей. Описание задачиПредставьте себе инфраструктуру крупной компании, где хранятся миллионы файлов. Сотрудники постоянно взаимодействуют с ними: читают, изменяют, создают новые. В этом непрерывном потоке событий крайне сложно вручную заметить признаки потенциальной угрозы — будь то инсайдер, копирующий данные, или вирус, массово шифрующий файлы.

продолжить чтение

Оставлено в

Отказ от ответа в табличной классификации: max-prob, entropy и conformal sets на CatBoost

1) Зачем нужен "отказ от ответа"?В табличной классификации ошибка часто стоит дороже, чем “не знаю”. Поэтому вместо “модель всегда отвечает” полезнее режим selective classification (abstention): модель отвечает только когда уверена, а сомнительные случаи отправляет в ручную проверку / второй контур.Например: Антифрод (транзакции) :Ошибка → пропустили мошенника (прямой убыток). Отказ → транзакция уходит на дополнительную проверку (потеря UX/времени, но контролируемо). Кредитный скоринг (одобрить/отклонить):Ошибка → одобрили “плохого” клиента (риск дефолта). Отказ

продолжить чтение

Оставлено в

Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

Привет, Хабр! Меня зовут Кореньков Александр, и я работаю в команде «Выгода и вовлечение» в направлении продуктовой аналитики онлайн-доставки в компании X5 Digital. Занимаюсь машинным обучением на стыке с продуктовой аналитикой: оцениваю эффективность маркетинговых механик и рекламных каналов, а после стараюсь помочь бизнесу принимать верные решения, основанные не на ощущениях, а на данных и результатах их анализа.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

CatBoost.

Разбираемся в ML без воды: от базы до Attention. Часть 11: Градиентный бустинг

Как глушить нефтяную скважину… машинным обучением. Часть 2, техническая

Поиск черной кошки в 2000-мерной темной комнате. Турнир алгоритмов машинного обучения

FlakyDetector 2.0: Один комментарий, который перевернул моё представление о нестабильных тестах

FlakyDetector 2.0: Как я превратил сырое исследование в продакшен-инструмент с AST, ML и красивым дашбордом…

Как закешировать интеллект: LLM Cache в поиске Яндекс Лавки

Как мы научили CatBoost находить борщевик на спутниковых снимках

ML и инфобез: три подхода для поиска аномалий во временных рядах

Отказ от ответа в табличной классификации: max-prob, entropy и conformal sets на CatBoost

Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

CatBoost.