Компания Allen AI: новая модель Tülu 3 405B с открытым исходным кодом конкурирует с лучшими моделями

Институт искусственного интеллекта ^[1] Аллена (Ai2) выпустил Tülu 3 405B — языковую модель с открытым исходным кодом, которая, как сообщается, по производительности соответствует или превосходит DeepSeek V3 и GPT-4o. Команда во многом объясняет этот успех новым подходом к обучению ^[2] под названием RLVR.

Модель, созданная на основе Llama 3.1, использует «обучение с подкреплением ^[3] с проверяемыми вознаграждениями» (RLVR), которое вознаграждает систему только в том случае, если она выдаёт проверяемые правильные ответы. По словам AI2, этот подход особенно хорошо подходит для математических задач, результаты которых можно легко проверить.

Компания Allen AI: новая модель Tülu 3 405B с открытым исходным кодом конкурирует с лучшими моделями - 2

«Обучение модели с 405 миллиардами параметров вывело нас на технический предел, потребовав 32 вычислительных узла с 256 графическими процессорами, работающими вместе. Каждый этап обучения занимал 35 минут, и команде пришлось использовать обходные пути, например вспомогательную модель меньшего размера, чтобы справиться с вычислительными нагрузками. Проект постоянно сталкивался с техническими трудностями, которые требовали постоянного внимания ^[4], — опыт ^[5], которым редко делятся компании, разрабатывающие аналогичные модели».

AI2 утверждает, что Tülu превосходит другие модели с открытым исходным кодом, такие как Llama 3.1 405B Instruct и Nous Hermes 3 405B, несмотря на то, что обучение пришлось завершить досрочно из-за нехватки вычислительных мощностей. Он также соответствует или превосходит по производительности DeepSeek V3 и GPT-4o.

В процессе обучения сочетались контролируемая тонкая настройка, прямая оптимизация предпочтений и RLVR — подход, схожий с обучением Deepseek R1 ^[6], особенно в том, что, по мнению команды, обучение с подкреплением больше подходит для более крупных моделей.

Пользователи могут протестировать модель в AI2 Playground ^[7], код доступен на GitHub ^[8], а модели — на Hugging Face ^[9].

Источник ^[10]

Автор: mefdayy

Источник ^[11]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/11766

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] обучению: http://www.braintools.ru/article/5125

[3] подкреплением: http://www.braintools.ru/article/5528

[4] внимания: http://www.braintools.ru/article/7595

[5] опыт: http://www.braintools.ru/article/6952

[6] Deepseek R1: https://the-decoder.com/deepseeks-latest-r1-zero-model-matches-openais-o1-in-reasoning-benchmarks/

[7] AI2 Playground: https://playground.allenai.org/

[8] GitHub: https://github.com/allenai/open-instruct

[9] Hugging Face: https://huggingface.co/collections/allenai/tulu-3-models-673b8e0dc3512e30e7dc54f5

[10] Источник: https://the-decoder.com/allen-ai-claims-its-new-tulu-3-405b-open-source-model-rivals-top-performers-like-deepseek-v3/

[11] Источник: https://habr.com/ru/companies/bothub/news/878556/?utm_source=habrahabr&utm_medium=rss&utm_campaign=878556

Нажмите здесь для печати.