- BrainTools - https://www.braintools.ru -
Алгоритм CatBoost [1] от «Яндекса» вошёл [2] в число наиболее широко используемых инструментов машинного обучения [3] в академических исследованиях по версии американского издания Marktechpost. Доклад ML Global Impact Report 2025 охватывает исследования из 125 стран и подчёркивает ведущую роль США и Китая в области машинного обучения. Российская разработка попала в узкую группу из пяти неамериканских технологий, наиболее часто упоминаемых в научных исследованиях мира. Помимо CatBoost в этот список вошли Scikit‑learn из Франции, AlphaFold из Великобритании, U‑Net из Германии, а также GAN и RNN из Канады.
Авторы отчёта отмечают, что 90% инструментов машинного обучения с открытым исходным кодом разработаны в США. Эти инструменты включают многие основополагающие мировые фреймворки для обработки изображений, геномики и экологии. Китай при этом лидирует по числу публикаций. На долю Китая приходится 43% всех статей, посвящённых машинному обучению, или 2,1 тысячи публикаций в 2025 году.
CatBoost используется в каждой 30-й статье с применением машинного обучения. Алгоритм применяют учёные из 51 страны, включая США, Китай, Саудовскую Аравию. Например, на долю США приходится 13% статей с использованием CatBoost. У американских аналогов схожие показатели: XGBoost имеет 15%, классический Gradient Boosting Model — 12%, а LightGBM от Microsoft — 10%.
Инструмент CatBoost разработан изначально для задач поиска «Яндекса» и на декабрь 2025 года применяется в разных сервисах компании. Алгоритм используется в «Погоде», «Директе», «Маркете», «Музыке» и других продуктах. В открытый доступ его выложили в 2017 году. Основная причина популярности заключается в том, что большинство практических задач машинного обучения опираются на табличные данные. CatBoost находит в таких таблицах сложные и неочевидные закономерности.
Когда пользователь вводит запрос в поиск, алгоритм обращается к большой электронной таблице, где строки — это варианты материалов для выдачи, а столбцы — тысячи характеристик. К этим характеристикам относятся параметры запроса, история запросов, регион, популярность сайтов, их свежесть и релевантность, а также комбинации признаков запроса и материалов. CatBoost ранжирует эти варианты, выбирая самые полезные.
CatBoost применялся в медицине, в прогнозировании рецидивов рака печени и обнаружении рака молочной железы. Алгоритм использовался в ранней диагностике болезни Альцгеймера и прогнозировании преждевременных родов.
В прикладных науках инструмент показал один из лучших результатов в прогнозировании индекса качества воды. Алгоритм применялся в сравнительном анализе методов прогнозирования спроса на зарядку электромобилей и показал высокую эффективность в выявлении фальшивых аккаунтов в социальных сетях.
CatBoost интегрирован в многоуровневую архитектуру машинного обучения «Авито», где применяется в системе рекомендаций для ранжирования объявлений в режиме реального времени и в моделях монетизации для предсказания конверсий.
Автор исследовательского проекта на кафедре электрохимической энергетики в МФТИ Алексей Дружинин рассказал, что при разработке методов прогнозирования состояния литий‑ионных аккумуляторов CatBoost показал стабильную точность оценки уровня заряда батареи. Алгоритм используется в обучении экспериментальных цифровых двойников батарей для прогнозирования их деградации и плотности электролита, что позволяет более точно определять срок службы аккумуляторов.
Автор: Lexx_Nimofff
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/23462
URLs in this post:
[1] CatBoost: https://catboost.ai/docs/en/
[2] вошёл: https://www.forbes.ru/tekhnologii/551898-cifrovoj-kot-algoritm-ot-andeksa-catboost-konkuriruet-s-razrabotkami-bigtehov
[3] обучения: http://www.braintools.ru/article/5125
[4] Источник: https://habr.com/ru/news/978896/?utm_source=habrahabr&utm_medium=rss&utm_campaign=978896
Нажмите здесь для печати.