Maverick от Meta* на LM Arena: различия между экспериментальной версией и версией для разработчиков. LM Arena.. LM Arena. maverick.. LM Arena. maverick. meta.. LM Arena. maverick. meta. Блог компании BotHub.. LM Arena. maverick. meta. Блог компании BotHub. ИИ.. LM Arena. maverick. meta. Блог компании BotHub. ИИ. ии и машинное обучение.. LM Arena. maverick. meta. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект.. LM Arena. maverick. meta. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. тестирование моделей.

Одна из новых флагманских моделей ИИ, выпущенных Meta в субботу, Maverick, занимает второе место на LM Arena — тесте, в котором люди-эксперты сравнивают результаты работы моделей и выбирают ту, которая им больше нравится. Но, похоже, версия Maverick, которую Meta использовала на LM Arena, отличается от версии, широко доступной разработчикам.

Maverick от Meta* на LM Arena: различия между экспериментальной версией и версией для разработчиков - 1

Как несколько исследователей искусственного интеллекта отметили в X, Meta в своём объявлении указала, что Maverick на LM Arena — это «экспериментальная версия чата». На официальном сайте Llama, тем временем, указано, что тестирование LM Arena от Meta проводилось с использованием «Llama 4 Maverick, оптимизированного для общения».

Как уже писали ранее, по разным причинам LM Arena никогда не была самым надёжным показателем эффективности модели ИИ. Но компании, занимающиеся ИИ, как правило, не настраивали свои модели так, чтобы они лучше справлялись с LM Arena, — по крайней мере, они этого не признавали.

Проблема с адаптацией модели к эталонному тесту, её сокрытием, а затем выпуском «ванильного» варианта той же модели заключается в том, что разработчикам сложно предсказать, насколько хорошо модель будет работать в конкретных условиях. Это также вводит в заблуждение. В идеале эталонный тест, каким бы несовершенным он ни был, даёт представление о сильных и слабых сторонах одной модели в целом ряде задач.

Действительно, исследователи из X заметили значительные различия в поведении общедоступной версии Maverick по сравнению с моделью, размещённой на LM Arena. В версии LM Arena, похоже, используется много эмодзи, и ответы даются невероятно пространные.

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Автор: mefdayy

Источник

Запись добавлена: 07.04.2025 в 07:42
Оставлено в

Maverick от Meta* на LM Arena: различия между экспериментальной версией и версией для разработчиков

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов