XGBoost.

Разбираемся в ML без воды: от базы до Attention. Часть 11: Градиентный бустинг

В десятой части при изучении случайного леса мы наткнулись на проблему: переход от одиночного дерева к лесу частично снизил дисперсию, но вопрос со смещением остался открытым. Сегодня мы перейдем к концепции градиентного бустинга, которая позволяет последовательно сводить смещение к нулю, и заодно разберем, как заставить деревья эффективно учиться на ошибках своих "предшественников".Градиентный бустинг

продолжить чтение

Как глушить нефтяную скважину… машинным обучением. Часть 2, техническая

Продолжаю рассказывать широкой общественности об интересном ML проекте, результаты которого внедряются в реальный технологический процесс. В Первой части разобрались, что такое глушение и почему важно уметь рассчитывать объемы жидкостей глушения. В этой части будет непосредственно все то, как мы решали эту задачу с помощью МЛ:Построили двухконтурную систему: офлайн-обучение на XGBoost и CatBoost — и лeгкий онлайн-инференс через Flask.Вместо одного .fit()

продолжить чтение

Поиск черной кошки в 2000-мерной темной комнате. Турнир алгоритмов машинного обучения

ЭпиграфЭксперимент завершен. Результаты выглядят так, будто я немного сломал законы физики привычного табличного ML.Может быть это соревнование, которого не должно было быть?Это приглашение к репликации.Спрятать иголку в стоге сена? Да!Добро пожаловать на мой маленький тестовый полигон.

продолжить чтение

Я выяснил, что Яндекс Музыка на треть состоит из нейрослопа

Теория Практика мёртвого интернетаВозможно вы уже знаете, что в чарт «Яндекс Музыки» залетают треки, сгенерированные ИИ. Например, перепевка стихотворения Есенина

продолжить чтение

Книга: «Машинное обучение на табличных данных: XGBoost, глубокое обучение и ИИ»

Привет, Хаброжители!

продолжить чтение

Симулятор JWST на Python: как критика Хабра заставила выучить астрофизику и почему мы сделаем открытие раньше NASA

Некоторое время назад я опубликовал статью о том, как написал ML-скрипт для поиска потенциально обитаемых экзопланет. Я был воодушевлен результатами (алгоритм бодро находил кандидатов), но в комментариях меня ждал холодный душ.Пользователь Quiensabe выдал жесткий, но абсолютно справедливый комментарий: "Где валидация в условиях distribution shift? Как ведет себя модель без зашитых физических лимитов (ablation study)? Где калибровка 95% интервалов, чтобы они не были просто декорацией?".

продолжить чтение

Как мы сломали индекс обитаемости экзопланет: Парадокс ESI, Physics-Informed ML и 9600 фейковых «Земель»

В прошлой нашей статье мы рассказывали, как написали программу ExoLogica AI для анализа экзопланет, и неосторожно бросили фразу: «Машинное обучение без законов физики — это просто генератор случайных чисел».В комментариях Senior Data Scientist'ы совершенно справедливо разнесли нас за терминологию. Нам объяснили, что ML не генерирует энтропию, а строит вероятностные распределения. И что проблема нашей базовой модели заключалась не в «случайности», а в отсутствии правильного физического индуктивного смещения (inductive bias)

продолжить чтение

Космос из школьного кабинета: Как мы научили ИИ законам Кеплера после «разноса» от ученых

Существует стереотип, что современная наука об экзопланетах — это прерогатива NASA, ESA и ученых с миллионными грантами. Мы — команда обычных школьников и наш наставник — решили доказать, что для открытия новых миров достаточно ноутбука, Python и понимания того, что Машинное Обучение (ML) без физики — это просто генератор случайных чисел.Это история проекта ExoLogica AI. Путь от сокрушительного провала на республиканской конференции до создания гибридного интеллекта, который видит то, что иногда пропускают профессиональные телескопы.1. Провал ExoScan: Почему «черный ящик» не работает в космосе

продолжить чтение

Борьба с дисбалансом классов. Oversampling

ВведениеПривет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье

продолжить чтение

XGBoost альтернатива CatBoost для работы с категориальными данными???

Кратко:22 сентября 2025г. вышла версия 3.10 XGBoost. Основной фишкой новой версии стал "категориальный ре-кодер(categorical re-coder)". Он сохраняет категории в модели и так же может перекодировать данные на этапе инференса. И целью этой статьи является сравнить возможности новой версии XGBoost c лидером обработки категориальных данных, CatBoost.Основные вопросы:Кто обучает на сырых данных?Что такое этот категориальный ре-кодер?Можно ли обучить модель полностью на сырых данных и получить приемлемый результат?

продолжить чтение

12