бенчмарки. - страница 2

Pov-real: непопулярные мнения об индустрии genAI

Привет, Хабр! На связи Just AI, и сегодня мы собрали для вас непопулярные мнения экспертов индустрии на тему genAI. Зачем? Потому что новости о прорывных технологиях, многомиллиардных инвестициях и стартапах появляются почти каждый день – сложно не утонуть в этом потоке и понять, где реальная ценность, а где просто хайп. Критическое мышление – наше все!В нашем телеграм-канале мы устроили челлендж «pov/real»

продолжить чтение

Pov-real: развеиваем мифы об индустрии genAI и делимся непопулярными мнениями экспертов

Привет, Хабр! На связи Just AI, и сегодня мы собрали для вас непопулярные мнения экспертов индустрии на тему genAI. Зачем? Потому что новости о прорывных технологиях, многомиллиардных инвестициях и стартапах появляются почти каждый день – сложно не утонуть в этом потоке и понять, где реальная ценность, а где просто хайп. Критическое мышление – наше все!В нашем телеграм-канале мы устроили челлендж «pov/real»

продолжить чтение

Как влияет ИИ на производительность опытных разработчиков: исследование

TL;DR Провели РКИ на реальных задачах в крупных OSS-репозиториях: 16 опытных контрибьюторов, 246 задач (исправления, фичи, рефакторинг), на каждую задачу случайно разрешали/запрещали ИИ.Инструменты при «разрешено»: в основном Cursor Pro + Claude 3.5/3.7; при «запрещено» — обычная работа без генеративного ИИ.Главный итог: с ИИ задачи выполнялись в среднем на 19% дольше; качество PR сопоставимо между условиями.Перцепция расходится с данными: разработчики ожидали ускорение (~24%) и постфактум тоже считали, что ускорились (~20%).

продолжить чтение

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

продолжить чтение

HeroBench: проверяем, как LLM справляются со сложным планированием в виртуальных RPG-мирах

Привет! Меня зовут Петр Анохин, я руковожу группой «Нейрокогнитивные архитектуры» в Институте AIRI. Недавно мы выложили в открытый доступ новый бенчмарк для долгосрочного планирования LLM под названием HeroBench. Основанный на MMORPG‑песочнице для программистов, HeroBench проверяет способность современных моделей обрабатывать комплексный контекст, выполнять декомпозицию задач и формировать детализированные многошаговые планы достижения целей.

продолжить чтение

Часть 5. Обзор техник оценки качества систем RAG

Предисловие переводчикаПродолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (ссылка на первую часть — здесь, на вторую часть — здесь, третью часть — здесь, четвёртую часть — здесь). Перевод этой части мы выполняли в тандеме с коллегой — Мариной Хазиевой. К некоторым терминам, как и в прошлых частях, добавлены переводы и пояснения для удобства начинающих ИТ-переводчиков.

продолжить чтение

SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода

Всем привет! Пару месяцев назад Альянс в сфере искусственного интеллекта, в который MWS AI тоже входит, запустил

продолжить чтение

Тестируем пять моделей DeepSeek R1 и Qwen3 на серверах YADRO

Привет, Хабр. Меня зовут Дмитрий Крюков, я инженер по разработке ПО искусственного интеллекта в YADRO. Мы продолжаем рассказывать о возможностях GPU-серверов YADRO G4208P и YADRO VEGMAN R220 G2

продолжить чтение

Что слепой знает о мире? Большие языковые модели и география

Изображение выше принято рекомендовать как древнюю карту мира римского географа Помпония Мелы. Это не совсем так. Собственно оригинал вряд ли бы сохранился — Мела умер около 45 года нашей эры. До нас дошёл только древний трактат «Описательная география» (

продолжить чтение

YandexGPT 5.1 Pro: открыли доступ к флагманской модели в облаке

Yandex B2B Tech открыла доступ к новой генеративной модели YandexGPT 5.1 Pro на платформе Yandex Cloud AI Studio. Новая модель лучше справляется с выполнением стандартизированных тестов (бенчмарков), по сравнению с сопоставимыми по мощности моделями с открытыми весами. YandexGPT 5.1 Pro в 58% случаев превосходит предыдущую версию, а в сравнении с GPT-4.1 от OpenAI выигрывает в 56% случаев.

продолжить чтение

Rambler's Top100