Бывший исследователь OpenAI раскритиковал RL как основу тренировки LLM

Бывший ведущий исследователь OpenAI и Tesla в сфере искусственного интеллекта ^[1] Андрeй Карпати выступил с критикой использования reinforcement learning (RL) как основы обучения ^[2] больших языковых моделей. В публикации на X ^[3] он описал работу с RL-reward-функциями как «излишне подозрительную ^[4]» — они ненадёжны, легко поддаются манипуляциям и плохо подходят для воспитания сложных интеллектуальных навыков.

Это заявление особенно резонансно на фоне того, что многие современные модели, способствующие развитию логического мышления ^[5] у ИИ, активно используют именно RL ^[6]. При этом Карпати отмечает, что такие модели достигли плато развития, и нужны новые подходы.

Однако он не отрицает ценность RL полностью. Он считает его развитие лучшим, чем классическое supervised finetuning, и прогнозирует, что RL-файнтюнинг будет продолжать применяться, особенно для улучшения поведения ^[7] моделей.

Тем не менее, настоящий прорыв, по мнению Карпати, ждёт искусственный интеллект, когда появятся новые, более эффективные способы обучения — не путём подстройки весов модели, а через глубокие альтернативы. Один из упомянутых им подходов — system prompt learning, где учение происходит на уровне токенов и контекстов, а не веса модели, наподобие того, как мозг ^[8] обрабатывает информацию во сне ^[9].

Делегируйте часть рутинных задач вместе с ^[10]BotHub ^[11]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[12] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник ^[13]

Автор: cognitronn

Источник ^[14]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/18922

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] обучения: http://www.braintools.ru/article/5125

[3] В публикации на X: https://x.com/karpathy/status/1960803117689397543

[4] излишне подозрительную: https://the-decoder.com/openai-plans-gpt-5-release-in-a-few-months-shifts-strategy-on-reasoning-models/

[5] мышления: http://www.braintools.ru/thinking

[6] именно RL: https://x.com/karpathy/status/1960804762871587015

[7] поведения: http://www.braintools.ru/article/9372

[8] мозг: http://www.braintools.ru/parts-of-the-brain

[9] сне: http://www.braintools.ru/article/9809

[10] : https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C_content=GEMINI%20ON%20CHATGPT%27S%20HEELS:%20THE%20LATEST%20AI%20RANKING%20FROM%20ANDREESSEN%20HOROWITZ

[11] BotHub: https://bothub.chat/?utm%5C%5C_source=contentmarketing&utm%5C%5C_medium=habr&utm%5C%5C_campaign=news&utm%5C%5C_content=FORMER%20OPENAI%20RESEARCHER%20CRITICIZES%20RL%20AS%20BASIS%20FOR%20LLM%20TRAINING

[12] По ссылке: https://bothub.chat/?invitedBy=m%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_aGCkuyTgqllHCK0dUc7

[13] Источник: https://the-decoder.com/ai-researcher-andrej-karpathy-says-hes-bearish-on-reinforcement-learning-for-llm-training/

[14] Источник: https://habr.com/ru/companies/bothub/news/942360/?utm_source=habrahabr&utm_medium=rss&utm_campaign=942360

Нажмите здесь для печати.