rl.

rl.

Reinforcement Learning: Policy gradient methods

Полезные ссылки:Тренировки. Лекция 5: Современные методы обучения с подкреплением. Advantage actor critic, RLHFPractical RL: Policy gradient methodsPolicy Gradient – Федор РатниковТест ниже представляет собой агрегацию лекций, на которые даны ссылки выше.Мой тг канал: not magic neural networksПеред прочтением можно ознакомиться с предыдущими статьями Intro Reinforcement Learning и

продолжить чтение

SFT vs RL: Сравнение методов настройки LLM для задач программирования и игровых сред

ВведениеВ современной разработке AI-агентов возникает необходимость адаптации больших языковых моделей (LLM) для решения специфических задач, требующих не просто генерации текста, а выполнения последовательных действий с рассуждениями. В этой статье мы рассмотрим и сравним два основных подхода к настройке моделей: Supervised Fine-Tuning (SFT) и Reinforcement Learning (RL), используя библиотеку TRL (Transformer Reinforcement Learning) от Hugging Face. Мы рассмотрим применение этих методов для двух категорий задач: Задачи программирования:Нахождение подходящего инпута для программы

продолжить чтение

Reinforcement Learning: Model-free & Deep RL

Продолжаю погружаться в Reinforcement Learning. Здесь продолжение статьи Intro Reinforcement Learning. Если предыдущая часть помогла вам понять, что такое среда, агент, награды и функции ценности, то здесь мы сделаем шаг дальше: мы переходим к model-free алгоритмам и Deep Reinforcement Learning, где агент учится оптимальной стратегии, не имея прямого доступа к модели среды.Как и всегда, буду рада, если материал поможет кому-то в освоении RL. Пользуясь случаем, оставляю тг-канал Not Magic Neural Networks.

продолжить чтение

RL (RLM): Разбираемся вместе

Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).Вы наверняка слышали про такие модели, как o1 от OpenAI или QwQ от Alibaba. Их "рассуждающие" способности во многом — результат применения RL. Давайте разберемся, как обычный принцип обучения, известный по играм вроде AlphaGo, помогает языковым моделям стать умнее.

продолжить чтение

Как мы обеспечили +33% к точности на сложных SQL-запросах

Генератор SQL на базе LLM — понятный продукт с понятной ценностью. Он может быть отдельной платформой или инструментом для агента, решающего более общую задачу. Генерировать код модели с попеременным успехом, к счастью, умеют. И что же? Берем API с моделью помощнее, даем ей доступ к БД, задаем вопрос, смотрим на результат, и всё — полноценная замена аналитику? Конечно, нет, ведь аналитик делает гораздо больше, чем просто пишет и исполняет SQL. Однако давайте остановимся на SQL и посмотрим, почему это тоже не так просто:

продолжить чтение

Силиконовая долина готовит ИИ к жизни в реальном мире

продолжить чтение

Prime Intellect запустила открытую платформу для Reinforcement Learning

продолжить чтение

Бывший исследователь OpenAI раскритиковал RL как основу тренировки LLM

Бывший ведущий исследователь OpenAI и Tesla в сфере искусственного интеллекта Андрeй Карпати выступил с критикой использования reinforcement learning (RL) как основы обучения больших языковых моделей.

продолжить чтение

Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше

Привет, Хабр!Меня зовут Роман, я NLP-инженер в Сбере. Занимаюсь мультиагентными системами и работаю с LLM в проде. Сегодня расскажу про одну из самых интересных статей июня по версии Huggingface Daily Papers — Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning.TL;DRАвторы предлагают простой, но мощный метод: если первая попытка модели провалилась, она должна написать краткую саморефлексию, а затем сделать повторную попытку. Если она успешна — награду получают только токены саморефлексии.

продолжить чтение

Исследователи обучают ИИ генерировать длинные тексты, используя только метод обучения с подкреплением

Исследовательская группа из Сингапура и Китая представила LongWriter-Zero — модель искусственного интеллекта, которая использует обучение с подкреплением для написания текстов объёмом более 10 000 слов без использования синтетических обучающих данных.

продолжить чтение

12
Rambler's Top100