Бывший исследователь OpenAI раскритиковал RL как основу тренировки LLM. ai.. ai. openai.. ai. openai. rl.. ai. openai. rl. supervised learning.. ai. openai. rl. supervised learning. андрей карпати.. ai. openai. rl. supervised learning. андрей карпати. Блог компании BotHub.. ai. openai. rl. supervised learning. андрей карпати. Блог компании BotHub. Будущее здесь.. ai. openai. rl. supervised learning. андрей карпати. Блог компании BotHub. Будущее здесь. ИИ.. ai. openai. rl. supervised learning. андрей карпати. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. openai. rl. supervised learning. андрей карпати. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. openai. rl. supervised learning. андрей карпати. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. научно-популярное.. ai. openai. rl. supervised learning. андрей карпати. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. научно-популярное. нейросети.
Бывший исследователь OpenAI раскритиковал RL как основу тренировки LLM - 1

Бывший ведущий исследователь OpenAI и Tesla в сфере искусственного интеллекта Андрeй Карпати выступил с критикой использования reinforcement learning (RL) как основы обучения больших языковых моделей. В публикации на X он описал работу с RL-reward-функциями как «излишне подозрительную» — они ненадёжны, легко поддаются манипуляциям и плохо подходят для воспитания сложных интеллектуальных навыков.

Это заявление особенно резонансно на фоне того, что многие современные модели, способствующие развитию логического мышления у ИИ, активно используют именно RL. При этом Карпати отмечает, что такие модели достигли плато развития, и нужны новые подходы.

Однако он не отрицает ценность RL полностью. Он считает его развитие лучшим, чем классическое supervised finetuning, и прогнозирует, что RL-файнтюнинг будет продолжать применяться, особенно для улучшения поведения моделей.

Тем не менее, настоящий прорыв, по мнению Карпати, ждёт искусственный интеллект, когда появятся новые, более эффективные способы обучения — не путём подстройки весов модели, а через глубокие альтернативы. Один из упомянутых им подходов — system prompt learning, где учение происходит на уровне токенов и контекстов, а не веса модели, наподобие того, как мозг обрабатывает информацию во сне.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: cognitronn

Источник

Rambler's Top100