sft.

sft.

Исследование AI выявило ключевые факторы, лежащие в основе долгосрочных способностей LLM к рассуждениям

Систематическое исследование раскрывает методы, с помощью которых генерируются длинные цепочки мыслей моделей рассуждений. Результаты дают практические советы по оптимизации стратегий обучения. Команда IN.AI вместе с исследователями из Университета Цинхуа и Университета Карнеги-Меллона составила карту того, как модели AI развивают свою способность работать с длинными цепочками мыслей. Их систематическое исследование использовало контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL) для выявления ключевых факторов, лежащих в основе этой способности.

продолжить чтение

Rambler's Top100