LMSYS запускает Miles и обещает ускорение RL на 25 процентов. Конец эпохе медленных MoE?
Команда LMSYS ORG, известная своими опенсорс-инициативами и Chatbot Arena, представила новый фреймворк Miles
LLM Evals: движущая сила новой эры ИИ в бизнесе
На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале.Статью авторы называют «руководством для бизнес-лидеров». Внутри — про оценку недетерминированных систем, как к этому подходить, немного про A/B тесты и почему не стоит пытаться решить все сразу. Классический цикл фиксации метрики и постепенного ее улучшения, но с LLM спецификой.
У Kaggle теперь есть собственный MCP-сервер
У Kaggle появился собственный MCP-сервер. Это значит, что пользователи могут работать с площадкой и её данными в любых нейросетевых чат-ботах и средах разработки.
X живее всех живых: Threads и Bluesky не смогли переманить пользователей
Согласно новому отчету
ИИ-система Locus превзошла экспертов в научных исследованиях
Intology анонсировала Locus, систему «искусственного учёного», которая по предварительным результатам обходит человеческих исследователей, и это не просто хайп. На бенчмарке RE‑Bench, под равными временными и вычислительными ресурсами, Locus показывает результаты выше, чем лучшие специалисты в области ИИ из ведущих лабораторий.

