Одна из новых флагманских моделей ИИ, выпущенных Meta в субботу, Maverick, занимает второе место на LM Arena — тесте, в котором люди-эксперты сравнивают результаты работы моделей и выбирают ту, которая им больше нравится. Но, похоже, версия Maverick, которую Meta использовала на LM Arena, отличается от версии, широко доступной разработчикам.

Как несколько исследователей искусственного интеллекта отметили в X, Meta в своём объявлении указала, что Maverick на LM Arena — это «экспериментальная версия чата». На официальном сайте Llama, тем временем, указано, что тестирование LM Arena от Meta проводилось с использованием «Llama 4 Maverick, оптимизированного для общения».
Как уже писали ранее, по разным причинам LM Arena никогда не была самым надёжным показателем эффективности модели ИИ. Но компании, занимающиеся ИИ, как правило, не настраивали свои модели так, чтобы они лучше справлялись с LM Arena, — по крайней мере, они этого не признавали.
Проблема с адаптацией модели к эталонному тесту, её сокрытием, а затем выпуском «ванильного» варианта той же модели заключается в том, что разработчикам сложно предсказать, насколько хорошо модель будет работать в конкретных условиях. Это также вводит в заблуждение. В идеале эталонный тест, каким бы несовершенным он ни был, даёт представление о сильных и слабых сторонах одной модели в целом ряде задач.
Действительно, исследователи из X заметили значительные различия в поведении общедоступной версии Maverick по сравнению с моделью, размещённой на LM Arena. В версии LM Arena, похоже, используется много эмодзи, и ответы даются невероятно пространные.
*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации
Автор: mefdayy
- Запись добавлена: 07.04.2025 в 07:42
- Оставлено в
Советуем прочесть:
- Meta* опровергла слухи об искусственном завышении результатов тестов своих моделей ИИ
- Результаты Llama 4 от Meta* в бенчмарках
- LlamaCon, первое мероприятие Meta* для разработчиков AI
- Gemini 2.0 Flash Thinking: самая маленькая модель Google лидирует на Chatbot Arena
- Meta* запускает программу, призванную стимулировать стартапы к использованию моделей ИИ Llama
- Llama 4 Maverick и Scout: результаты тестирования моделей Meta*
- Миллион человек воспользовались новой версией Робота Макса
- LM Arena обвиняют в предоставлении «избранным» AI-компаниям несправедливых преимуществ при тестировании моделей
- В lmarena добавили Search Arena — рейтинг нейросетевых поисковиков
- После провала Llama-4, в Meta* обсуждают использование ИИ от OpenAI и Google


