XGBoost.

Симулятор JWST на Python: как критика Хабра заставила выучить астрофизику и почему мы сделаем открытие раньше NASA

Некоторое время назад я опубликовал статью о том, как написал ML-скрипт для поиска потенциально обитаемых экзопланет. Я был воодушевлен результатами (алгоритм бодро находил кандидатов), но в комментариях меня ждал холодный душ.Пользователь Quiensabe выдал жесткий, но абсолютно справедливый комментарий: "Где валидация в условиях distribution shift? Как ведет себя модель без зашитых физических лимитов (ablation study)? Где калибровка 95% интервалов, чтобы они не были просто декорацией?".

продолжить чтение

Как мы сломали индекс обитаемости экзопланет: Парадокс ESI, Physics-Informed ML и 9600 фейковых «Земель»

В прошлой нашей статье мы рассказывали, как написали программу ExoLogica AI для анализа экзопланет, и неосторожно бросили фразу: «Машинное обучение без законов физики — это просто генератор случайных чисел».В комментариях Senior Data Scientist'ы совершенно справедливо разнесли нас за терминологию. Нам объяснили, что ML не генерирует энтропию, а строит вероятностные распределения. И что проблема нашей базовой модели заключалась не в «случайности», а в отсутствии правильного физического индуктивного смещения (inductive bias)

продолжить чтение

Космос из школьного кабинета: Как мы научили ИИ законам Кеплера после «разноса» от ученых

Существует стереотип, что современная наука об экзопланетах — это прерогатива NASA, ESA и ученых с миллионными грантами. Мы — команда обычных школьников и наш наставник — решили доказать, что для открытия новых миров достаточно ноутбука, Python и понимания того, что Машинное Обучение (ML) без физики — это просто генератор случайных чисел.Это история проекта ExoLogica AI. Путь от сокрушительного провала на республиканской конференции до создания гибридного интеллекта, который видит то, что иногда пропускают профессиональные телескопы.1. Провал ExoScan: Почему «черный ящик» не работает в космосе

продолжить чтение

Борьба с дисбалансом классов. Oversampling

ВведениеПривет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье

продолжить чтение

XGBoost альтернатива CatBoost для работы с категориальными данными???

Кратко:22 сентября 2025г. вышла версия 3.10 XGBoost. Основной фишкой новой версии стал "категориальный ре-кодер(categorical re-coder)". Он сохраняет категории в модели и так же может перекодировать данные на этапе инференса. И целью этой статьи является сравнить возможности новой версии XGBoost c лидером обработки категориальных данных, CatBoost.Основные вопросы:Кто обучает на сырых данных?Что такое этот категориальный ре-кодер?Можно ли обучить модель полностью на сырых данных и получить приемлемый результат?

продолжить чтение

Борьба с дисбалансом классов. Undersampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье

продолжить чтение

Борьба с дисбалансом классов. Стандартные методы

продолжить чтение

Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта.

продолжить чтение

Как спрогнозировать вес птицы с помощью XGBoost: от предобработки данных до оптимизации модели

Привет, Хабр! Вот когда каждый грамм действительно имеет значение: если вам нужно спрогнозировать вес птицы перед продажей, чтобы экономить на кормах и оптимизировать производство. Меня зовут Михаил Чирков, я data scientist в R-Style Softlab и сегодня хочу поделиться с вами кейсом прогнозирования с помощью XGBoost, этот проект мы делали в рамках внедрения BI-системы для птицефабрики. 

продолжить чтение