SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода
Всем привет! Пару месяцев назад Альянс в сфере искусственного интеллекта, в который MWS AI тоже входит, запустил
Обновленный курс Natural Language Processing
Сообщество Open Data Science и компания MWS AI в партнерстве с МФТИ и ИТМО вновь запускают бесплатный курс по обработке естественного языка. Стартуем 16 сентября – подробности и регистрация. Всем привет! 16 сентября я в очередной раз
DRAGON: динамический бенчмарк для оценки RAG-систем на русском языке
С появлением больших языковых моделей (LLM) стало казаться, что они умеют всё: от генерации кода до написания статей в научные журналы. Но, как только дело доходит до фактов, особенно актуальных и узкоспециализированных, начинаются проблемы. LLM — это не поисковики и не базы данных, знания у них статичны: что было в обучающей выборке, то модель и «знает» (да и то не всегда твёрдо). Постоянно дообучать её на актуальных данных — уже вызов. Тут на сцену выходят RAG-системы (Retrieval-Augmented Generation).

