rl. - страница 2

rl.

Обыгрываем казино, с блэкджеком и стратегиями

В данной статье будет рассмотрена работа с библиотекой gymnasium для изучения машинного обучения с подкреплением. Реализация агента, который использует метод машинного обучения q-learning

продолжить чтение

Действительно ли у ИИ-агента есть внутренняя картина мира и представление о себе?

продолжить чтение

Добро пожаловать в эру опыта: почему обучение с подкреплением изменит мир

Исследователи из Google DeepMind опубликовали интересную статью "Welcome to the Era of Experience"

продолжить чтение

Алгоритм PPO: баланс стабильности и простоты в RL

Привет, Хабр!Сегодня мы рассмотрим алгоритм Proximal Policy Optimization. Этот алгоритм идеально балансирует стабильность и простоту реализации. В отличие от TRPO, где приходится возиться с жесткими ограничениями и сложными оптимизационными задачами, PPO позволяет обновлять политику через функцию потерь с clippin (на рус. «механим обрезки»).Для наглядности будем использовать кастомную среду «CatChaseEnv», в которой агент‑котик учится ловить лазерную точку.Теоретическая основа PPOОбновление политики через градиентный спуск

продолжить чтение

RL RecSys в проде: хайп или игра вдолгую

В нашем мобильном приложении есть лента кэшбэков — партнерских предложений разных товаров и услуг. Когда пользователь заходит в эту ленту, мы стараемся первым делом показать ему те предложения, которые с большей вероятностью его заинтересуют. 

продолжить чтение

Исследование AI выявило ключевые факторы, лежащие в основе долгосрочных способностей LLM к рассуждениям

Систематическое исследование раскрывает методы, с помощью которых генерируются длинные цепочки мыслей моделей рассуждений. Результаты дают практические советы по оптимизации стратегий обучения. Команда IN.AI вместе с исследователями из Университета Цинхуа и Университета Карнеги-Меллона составила карту того, как модели AI развивают свою способность работать с длинными цепочками мыслей. Их систематическое исследование использовало контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL) для выявления ключевых факторов, лежащих в основе этой способности.

продолжить чтение

12
Rambler's Top100