Бывший исследователь OpenAI раскритиковал RL как основу тренировки LLM
Бывший ведущий исследователь OpenAI и Tesla в сфере искусственного интеллекта Андрeй Карпати выступил с критикой использования reinforcement learning (RL) как основы обучения больших языковых моделей.

