LLM-бенчмарки.

Artificial Analysis обновили свой Intelligence Index

В новых тестах неожиданно выстрелил Gemini 3 Pro Preview. По половине бенчмарков у модели не просто небольшой прирост, а заметный скачок вперёд.Фактические знания и галлюцинацииGemini 3 Pro Preview занимает 1-е место в 5 из 10 тестов Artificial Analysis Intelligence Index:GPQA Diamond, MMLU‑Pro, HLE, LiveCodeBench и SciCode.Самый показательный результат — 37% в Humanity's Last Exam (сложный экзамен «на последнюю попытку человечества»). Это на 10+ п.п. выше предыдущего лучшего результата — для такого класса задач это большой отрыв, а не статистический шум.»Отдельно модель лидирует в AA‑Omniscience, новом комплексном бенчмарке знаний и галлюцинаций:

продолжить чтение

Rambler's Top100