HeroBench: проверяем, как LLM справляются со сложным планированием в виртуальных RPG-мирах
Привет! Меня зовут Петр Анохин, я руковожу группой «Нейрокогнитивные архитектуры» в Институте AIRI. Недавно мы выложили в открытый доступ новый бенчмарк для долгосрочного планирования LLM под названием HeroBench. Основанный на MMORPG‑песочнице для программистов, HeroBench проверяет способность современных моделей обрабатывать комплексный контекст, выполнять декомпозицию задач и формировать детализированные многошаговые планы достижения целей.
Часть 5. Обзор техник оценки качества систем RAG
Предисловие переводчикаПродолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (ссылка на первую часть — здесь, на вторую часть — здесь, третью часть — здесь, четвёртую часть — здесь). Перевод этой части мы выполняли в тандеме с коллегой — Мариной Хазиевой. К некоторым терминам, как и в прошлых частях, добавлены переводы и пояснения для удобства начинающих ИТ-переводчиков.
SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода
Всем привет! Пару месяцев назад Альянс в сфере искусственного интеллекта, в который MWS AI тоже входит, запустил
Тестируем пять моделей DeepSeek R1 и Qwen3 на серверах YADRO
Привет, Хабр. Меня зовут Дмитрий Крюков, я инженер по разработке ПО искусственного интеллекта в YADRO. Мы продолжаем рассказывать о возможностях GPU-серверов YADRO G4208P и YADRO VEGMAN R220 G2
Что слепой знает о мире? Большие языковые модели и география
Изображение выше принято рекомендовать как древнюю карту мира римского географа Помпония Мелы. Это не совсем так. Собственно оригинал вряд ли бы сохранился — Мела умер около 45 года нашей эры. До нас дошёл только древний трактат «Описательная география» (
YandexGPT 5.1 Pro: открыли доступ к флагманской модели в облаке
Yandex B2B Tech открыла доступ к новой генеративной модели YandexGPT 5.1 Pro на платформе Yandex Cloud AI Studio. Новая модель лучше справляется с выполнением стандартизированных тестов (бенчмарков), по сравнению с сопоставимыми по мощности моделями с открытыми весами. YandexGPT 5.1 Pro в 58% случаев превосходит предыдущую версию, а в сравнении с GPT-4.1 от OpenAI выигрывает в 56% случаев.
Релиз открытой модели ByteDance: Seed-OSS-36B с контекстом в 512 000 токенов
TikTok снова в центре внимания — на этот раз благодаря Белому дому, который завёл аккаунт в популярном приложении. Но сюрприз подготовила и сама ByteDance
Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One
Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно.

