TabM — новая нейросетевая архитектура для работы с табличными данными от исследователей Яндекса. Open source.. Open source. архитектура.. Open source. архитектура. Блог компании Яндекс.. Open source. архитектура. Блог компании Яндекс. искусственный интеллект.. Open source. архитектура. Блог компании Яндекс. искусственный интеллект. Машинное обучение.. Open source. архитектура. Блог компании Яндекс. искусственный интеллект. Машинное обучение. нейросети.. Open source. архитектура. Блог компании Яндекс. искусственный интеллект. Машинное обучение. нейросети. работа с данными.. Open source. архитектура. Блог компании Яндекс. искусственный интеллект. Машинное обучение. нейросети. работа с данными. табличные данные.. Open source. архитектура. Блог компании Яндекс. искусственный интеллект. Машинное обучение. нейросети. работа с данными. табличные данные. Хранение данных.

Лаборатория исследований искусственного интеллекта Yandex Research представила новую нейросетевую архитектуру для работы с табличными данными — TabM. Она позволяет быстро обрабатывать большие массивы данных и строить высокоточные прогнозы, что особенно актуально для сфер бизнеса, исследований и медицины. Модель поможет оптимизировать поставки, прогнозировать энергопотребление, классифицировать пациентов по риску заболеваний и решать многие другие задачи.

TabM (Tabular DL model that makes Multiple predictions) — это эффективная реализация ансамбля моделей, когда каждая модель проводит свой анализ, после чего прогноз усредняется. Архитектура TabM позволяет добиться оптимального соотношения точности прогноза и необходимых вычислительных мощностей.

Разработку уже опробовали на Kaggle — платформе международных соревнований по анализу данных и машинному обучению от Google. В частности, новую архитектуру применяли для предсказания выживаемости пациентов после трансплантации костного мозга.

По результатам тестирования на 46 наборах данных, TabM превзошла другие решения не только по занимаемому в среднем месту (1,7 у TabM против 2,9 у ближайшего конкурента), но и по стабильности работы, что важно для практического применения. Благодаря способности объединять результаты работы нескольких подмоделей и эффективному использованию вычислительных ресурсов, TabM успешно конкурирует с классическими моделями градиентного бустинга — CatBoost, XGBoost, LightGBM, — которые долгое время считались лучшим решением для табличных данных.

Архитектура уже доступна разработчикам и исследователям на GitHub, а научная статья — на arXiv.

С 2019 года исследователи Yandex Research опубликовали восемь научных статей по глубокому обучению моделей для работы с табличными данными. В общей сложности статьи получили более 1900 цитирований. В частности, статью о TabM цитировали Университет Мангейма (Германия), Национальный университет Сингапура, Корейский университет, Иллинойсский университет в Урбане‑Шампейне. В разные годы статьи были приняты на самые влиятельные конференции по ИИ, в том числе NeurIPS, ICLR и ICML.

Автор: NatalieVT

Источник

Rambler's Top100