- BrainTools - https://www.braintools.ru -

Бывший ведущий исследователь OpenAI и Tesla в сфере искусственного интеллекта [1] Андрeй Карпати выступил с критикой использования reinforcement learning (RL) как основы обучения [2] больших языковых моделей. В публикации на X [3] он описал работу с RL-reward-функциями как «излишне подозрительную [4]» — они ненадёжны, легко поддаются манипуляциям и плохо подходят для воспитания сложных интеллектуальных навыков.
Это заявление особенно резонансно на фоне того, что многие современные модели, способствующие развитию логического мышления [5] у ИИ, активно используют именно RL [6]. При этом Карпати отмечает, что такие модели достигли плато развития, и нужны новые подходы.
Однако он не отрицает ценность RL полностью. Он считает его развитие лучшим, чем классическое supervised finetuning, и прогнозирует, что RL-файнтюнинг будет продолжать применяться, особенно для улучшения поведения [7] моделей.
Тем не менее, настоящий прорыв, по мнению Карпати, ждёт искусственный интеллект, когда появятся новые, более эффективные способы обучения — не путём подстройки весов модели, а через глубокие альтернативы. Один из упомянутых им подходов — system prompt learning, где учение происходит на уровне токенов и контекстов, а не веса модели, наподобие того, как мозг [8] обрабатывает информацию во сне [9].
Делегируйте часть рутинных задач вместе с [10]BotHub [11]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [12] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник [13]
Автор: cognitronn
Источник [14]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/18922
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] обучения: http://www.braintools.ru/article/5125
[3] В публикации на X: https://x.com/karpathy/status/1960803117689397543
[4] излишне подозрительную: https://the-decoder.com/openai-plans-gpt-5-release-in-a-few-months-shifts-strategy-on-reasoning-models/
[5] мышления: http://www.braintools.ru/thinking
[6] именно RL: https://x.com/karpathy/status/1960804762871587015
[7] поведения: http://www.braintools.ru/article/9372
[8] мозг: http://www.braintools.ru/parts-of-the-brain
[9] сне: http://www.braintools.ru/article/9809
[10] : https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C_content=GEMINI%20ON%20CHATGPT%27S%20HEELS:%20THE%20LATEST%20AI%20RANKING%20FROM%20ANDREESSEN%20HOROWITZ
[11] BotHub: https://bothub.chat/?utm%5C%5C_source=contentmarketing&utm%5C%5C_medium=habr&utm%5C%5C_campaign=news&utm%5C%5C_content=FORMER%20OPENAI%20RESEARCHER%20CRITICIZES%20RL%20AS%20BASIS%20FOR%20LLM%20TRAINING
[12] По ссылке: https://bothub.chat/?invitedBy=m%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_aGCkuyTgqllHCK0dUc7
[13] Источник: https://the-decoder.com/ai-researcher-andrej-karpathy-says-hes-bearish-on-reinforcement-learning-for-llm-training/
[14] Источник: https://habr.com/ru/companies/bothub/news/942360/?utm_source=habrahabr&utm_medium=rss&utm_campaign=942360
Нажмите здесь для печати.