- BrainTools - https://www.braintools.ru -
LMArena опубликовала доказательства, устраняющие опасения по поводу «экспериментальной» модели искусственного интеллекта [1] Meta*. Платформа опубликовала более 2000 сравнений [2], включая подсказки пользователей, ответы моделей и предпочтения пользователей.

«Интерпретация Meta* нашей политики не соответствует тому, чего мы ожидаем от поставщиков моделей», — заявила LMArena. «Meta* должна была яснее заявить, что «Llama-4-Maverick-03-26-Experimental» — это настраиваемая модель, оптимизированная под человеческие предпочтения».
Данные показывают, что Llama 4 последовательно выдает более длинные, более форматированные ответы с частым использованием смайликов, что говорит о том, что Meta* специально настроила модель для эталонной производительности. LMArena планирует протестировать стандартную версию Llama-4-Maverick и вскоре опубликовать эти результаты.
Artificial Analysis [3] пересмотрела свои критерии оценки и обновила баллы Llama 4. Принимая ответы в формате «Лучший ответ — A» для вопросов с несколькими вариантами ответов, платформа зафиксировала значительные изменения в тестах MMLU Pro и GPQA Diamond. Индекс интеллекта Scout вырос с 36 до 43, а Maverick — с 49 до 50, что демонстрирует, как методы оценки могут влиять на результаты тестов.
Новые данные подчеркивают эффективную конструкцию Maverick — он достигает этих показателей с 17 миллиардами активных параметров по сравнению с 37 миллиардами у Deepseek V3. В общем количестве параметров Maverick использует 402 миллиарда против 671 миллиарда у Deepseek V3, а также поддерживает возможности обработки изображений.
«Стандартная» модель Maverick из Llama 4 в настоящее время занимает 32-е место в рейтинге LMarena [4], значительно отставая от самых эффективных моделей. Но результаты требуют контекста: даже более старые системы, такие как Qwen 2.5, оказываются выше широко используемых антропных моделей, таких как Sonnet 3.7 и 3.5. Различия в оценках между моделями часто незначительны.

LMArena показывает, насколько произвольными могут быть бенчмарки, когда они не привязаны к четко определенным задачам, и как легко ими можно манипулировать, как это видно на примере экспериментальной модели Maverick от Meta*, обсуждаемой ниже. В конечном счете, наиболее полезным бенчмарком является то, насколько хорошо модель выполняет задачи, которые вас интересуют, и обеспечивает ли она хороший баланс стоимости и производительности.
Meta* и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации
Источник [5]
Автор: dilnaz_04
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/14178
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] более 2000 сравнений: https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles
[3] Artificial Analysis: https://x.com/ArtificialAnlys/status/1909624239747182989
[4] рейтинге LMarena: https://lmarena.ai/
[5] Источник: https://the-decoder.com/metas-llama-4-models-show-promise-on-standard-tests-but-struggle-with-long-context-tasks/
[6] Источник: https://habr.com/ru/companies/bothub/news/900278/?utm_source=habrahabr&utm_medium=rss&utm_campaign=900278
Нажмите здесь для печати.