Ai2 предложил способ обновлять навыки LLM по одному без полного переобучения. ai.. ai. Блог компании BotHub.. ai. Блог компании BotHub. Будущее здесь.. ai. Блог компании BotHub. Будущее здесь. ИИ.. ai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.. ai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети.
Ai2 предложил способ обновлять навыки LLM по одному без полного переобучения - 1

Институт Allen Institute for AI представил метод BAR — новый подход к посттрейну, который позволяет добавлять или улучшать отдельные навыки модели без полного ретрейна.

Суть в том, что модель разбивается на доменных «экспертов» (математика, код, tool use и т.д.), которые обучаются независимо, а затем объединяются в MoE-систему через обучаемый роутер.

Ai2 предложил способ обновлять навыки LLM по одному без полного переобучения - 2

Главное преимущество — отсутствие «разрушения» уже выученных навыков. Например:
обновление код-эксперта с помощью RL даёт +16.5 пункта к качеству программирования практически без влияния на другие области
добавление RL к математическому эксперту даёт +13 пунктов

В классическом пайплайне любое улучшение требует переобучения всей модели, и стоимость растёт квадратично. В BAR обновление масштабируется линейно — меняется только нужный домен.

Технически метод строится на поэтапном «размораживании» параметров:
на ранних стадиях общие веса заморожены
на этапе SFT частично открываются эмбеддинги и выходные слои
на RL-этапе размораживается вся модель, включая внимание.

Ai2 предложил способ обновлять навыки LLM по одному без полного переобучения - 3

После обучения эксперты объединяются:
общие параметры усредняются
роутер дообучается на небольшой (около 5%) выборке

Итоговая модель BAR-5x7B на базе Olmo 2 7B показывает лучшие результаты, чем классическое монолитное дообучение и альтернативные MoE-подходы.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: cognitronn

Источник