бенчмарки. - страница 2

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

продолжить чтение

HeroBench: проверяем, как LLM справляются со сложным планированием в виртуальных RPG-мирах

Привет! Меня зовут Петр Анохин, я руковожу группой «Нейрокогнитивные архитектуры» в Институте AIRI. Недавно мы выложили в открытый доступ новый бенчмарк для долгосрочного планирования LLM под названием HeroBench. Основанный на MMORPG‑песочнице для программистов, HeroBench проверяет способность современных моделей обрабатывать комплексный контекст, выполнять декомпозицию задач и формировать детализированные многошаговые планы достижения целей.

продолжить чтение

Часть 5. Обзор техник оценки качества систем RAG

Предисловие переводчикаПродолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (ссылка на первую часть — здесь, на вторую часть — здесь, третью часть — здесь, четвёртую часть — здесь). Перевод этой части мы выполняли в тандеме с коллегой — Мариной Хазиевой. К некоторым терминам, как и в прошлых частях, добавлены переводы и пояснения для удобства начинающих ИТ-переводчиков.

продолжить чтение

SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода

Всем привет! Пару месяцев назад Альянс в сфере искусственного интеллекта, в который MWS AI тоже входит, запустил

продолжить чтение

Тестируем пять моделей DeepSeek R1 и Qwen3 на серверах YADRO

Привет, Хабр. Меня зовут Дмитрий Крюков, я инженер по разработке ПО искусственного интеллекта в YADRO. Мы продолжаем рассказывать о возможностях GPU-серверов YADRO G4208P и YADRO VEGMAN R220 G2

продолжить чтение

Что слепой знает о мире? Большие языковые модели и география

Изображение выше принято рекомендовать как древнюю карту мира римского географа Помпония Мелы. Это не совсем так. Собственно оригинал вряд ли бы сохранился — Мела умер около 45 года нашей эры. До нас дошёл только древний трактат «Описательная география» (

продолжить чтение

YandexGPT 5.1 Pro: открыли доступ к флагманской модели в облаке

Yandex B2B Tech открыла доступ к новой генеративной модели YandexGPT 5.1 Pro на платформе Yandex Cloud AI Studio. Новая модель лучше справляется с выполнением стандартизированных тестов (бенчмарков), по сравнению с сопоставимыми по мощности моделями с открытыми весами. YandexGPT 5.1 Pro в 58% случаев превосходит предыдущую версию, а в сравнении с GPT-4.1 от OpenAI выигрывает в 56% случаев.

продолжить чтение

Релиз открытой модели ByteDance: Seed-OSS-36B с контекстом в 512 000 токенов

TikTok снова в центре внимания — на этот раз благодаря Белому дому, который завёл аккаунт в популярном приложении. Но сюрприз подготовила и сама ByteDance

продолжить чтение

Гибридный Deepseek v3.1 обошёл модель R1 в тестах на рассуждение

продолжить чтение

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно. 

продолжить чтение

Rambler's Top100