- BrainTools - https://www.braintools.ru -
Институт искусственного интеллекта [1] Аллена (Ai2) выпустил Tülu 3 405B — языковую модель с открытым исходным кодом, которая, как сообщается, по производительности соответствует или превосходит DeepSeek V3 и GPT-4o. Команда во многом объясняет этот успех новым подходом к обучению [2] под названием RLVR.

Модель, созданная на основе Llama 3.1, использует «обучение с подкреплением [3] с проверяемыми вознаграждениями» (RLVR), которое вознаграждает систему только в том случае, если она выдаёт проверяемые правильные ответы. По словам AI2, этот подход особенно хорошо подходит для математических задач, результаты которых можно легко проверить.

«Обучение модели с 405 миллиардами параметров вывело нас на технический предел, потребовав 32 вычислительных узла с 256 графическими процессорами, работающими вместе. Каждый этап обучения занимал 35 минут, и команде пришлось использовать обходные пути, например вспомогательную модель меньшего размера, чтобы справиться с вычислительными нагрузками. Проект постоянно сталкивался с техническими трудностями, которые требовали постоянного внимания [4], — опыт [5], которым редко делятся компании, разрабатывающие аналогичные модели».
AI2 утверждает, что Tülu превосходит другие модели с открытым исходным кодом, такие как Llama 3.1 405B Instruct и Nous Hermes 3 405B, несмотря на то, что обучение пришлось завершить досрочно из-за нехватки вычислительных мощностей. Он также соответствует или превосходит по производительности DeepSeek V3 и GPT-4o.
В процессе обучения сочетались контролируемая тонкая настройка, прямая оптимизация предпочтений и RLVR — подход, схожий с обучением Deepseek R1 [6], особенно в том, что, по мнению команды, обучение с подкреплением больше подходит для более крупных моделей.
Пользователи могут протестировать модель в AI2 Playground [7], код доступен на GitHub [8], а модели — на Hugging Face [9].
Источник [10]
Автор: mefdayy
Источник [11]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/11766
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] обучению: http://www.braintools.ru/article/5125
[3] подкреплением: http://www.braintools.ru/article/5528
[4] внимания: http://www.braintools.ru/article/7595
[5] опыт: http://www.braintools.ru/article/6952
[6] Deepseek R1: https://the-decoder.com/deepseeks-latest-r1-zero-model-matches-openais-o1-in-reasoning-benchmarks/
[7] AI2 Playground: https://playground.allenai.org/
[8] GitHub: https://github.com/allenai/open-instruct
[9] Hugging Face: https://huggingface.co/collections/allenai/tulu-3-models-673b8e0dc3512e30e7dc54f5
[10] Источник: https://the-decoder.com/allen-ai-claims-its-new-tulu-3-405b-open-source-model-rivals-top-performers-like-deepseek-v3/
[11] Источник: https://habr.com/ru/companies/bothub/news/878556/?utm_source=habrahabr&utm_medium=rss&utm_campaign=878556
Нажмите здесь для печати.