rl.
Обыгрываем казино, с блэкджеком и стратегиями
В данной статье будет рассмотрена работа с библиотекой gymnasium для изучения машинного обучения с подкреплением. Реализация агента, который использует метод машинного обучения q-learning
Добро пожаловать в эру опыта: почему обучение с подкреплением изменит мир
Исследователи из Google DeepMind опубликовали интересную статью "Welcome to the Era of Experience"
Алгоритм PPO: баланс стабильности и простоты в RL
Привет, Хабр!Сегодня мы рассмотрим алгоритм Proximal Policy Optimization. Этот алгоритм идеально балансирует стабильность и простоту реализации. В отличие от TRPO, где приходится возиться с жесткими ограничениями и сложными оптимизационными задачами, PPO позволяет обновлять политику через функцию потерь с clippin (на рус. «механим обрезки»).Для наглядности будем использовать кастомную среду «CatChaseEnv», в которой агент‑котик учится ловить лазерную точку.Теоретическая основа PPOОбновление политики через градиентный спуск
RL RecSys в проде: хайп или игра вдолгую
В нашем мобильном приложении есть лента кэшбэков — партнерских предложений разных товаров и услуг. Когда пользователь заходит в эту ленту, мы стараемся первым делом показать ему те предложения, которые с большей вероятностью его заинтересуют.
Исследование AI выявило ключевые факторы, лежащие в основе долгосрочных способностей LLM к рассуждениям
Систематическое исследование раскрывает методы, с помощью которых генерируются длинные цепочки мыслей моделей рассуждений. Результаты дают практические советы по оптимизации стратегий обучения. Команда IN.AI вместе с исследователями из Университета Цинхуа и Университета Карнеги-Меллона составила карту того, как модели AI развивают свою способность работать с длинными цепочками мыслей. Их систематическое исследование использовало контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL) для выявления ключевых факторов, лежащих в основе этой способности.

