reinforcement-learning.

Reinforcement Learning: Model-free & Deep RL

Продолжаю погружаться в Reinforcement Learning. Здесь продолжение статьи Intro Reinforcement Learning. Если предыдущая часть помогла вам понять, что такое среда, агент, награды и функции ценности, то здесь мы сделаем шаг дальше: мы переходим к model-free алгоритмам и Deep Reinforcement Learning, где агент учится оптимальной стратегии, не имея прямого доступа к модели среды.Как и всегда, буду рада, если материал поможет кому-то в освоении RL. Пользуясь случаем, оставляю тг-канал Not Magic Neural Networks.

продолжить чтение

Что я вынес из Oxford Machine Learning Summer School 2025

Mathematical Institute, University of OxfordВдохновлено обзором про похожую школу — EEML.

продолжить чтение

Реализуем Q learning на Python

Обучение с подкреплением является (Reinforcement learning) одним из направлений ML. Суть этого метода заключается в том, что обучаемая система или агент учится принимать оптимальные решения через взаимодействие со средой. В отличие от других подходов, Reinforcement learning (RL) не требует заранее подготовленных данных с правильными ответами или явной структуры в них. 

продолжить чтение

AI-движки на примере Knowledge Distillation, GAN, Reinforcement learning

Привет хабр! Я хочу поделиться своими наблюдениями и размышлениями на тему работы сеток-дуэтов в современных архитектурах нейросетей.Возьму как пример 3 подхода :Архитектура GAN, основанная на состязательности нейросетейАрхитектура Knowledge Distillation, основанная на совместном обучении и дистилляции Архитектура Reinforcement learning, основанная на последовательной или разделенной обработке 1. GAN - Генеративно - состязательные сети.

продолжить чтение

GEPA вместо RL: как рефлексивная эволюция промптов обгоняет обучение с подкреплением

АннотацияБольшие языковые модели (LLMs) всё чаще адаптируются к downstream-задачам с помощью методов RL, таких как Group Relative Policy Optimization (GRPO), которые нередко требуют тысячи прогонов для освоения новых задач. Мы утверждаем, что интерпретируемая природа языка может предоставлять LLM куда более богатую обучающую среду по сравнению с policy gradient’ами, основанными на разреженных скалярных наградах.

продолжить чтение

Скорость, стратегия и алгоритмы: будущее Формулы-1 в эпоху AI

Формула-1 всегда была местом пересечения инженерии и инноваций. В последние годы эта область инноваций расширилась за счёт внедрения искусственного интеллекта и машинного обучения.От стратегии по выбору шин до аэродинамического дизайна — эти технологии меняют то, как команды планируют работу, реагируют на вызовы и развиваются. Они не заменяют человеческих специалистов, принимающих решения, но трансформируют набор инструментов, с которыми ведут борьбу за результат.Моделирование стратегии с помощью reinforcement learning

продолжить чтение

LLM на прокачку: практический гайд по Alignment

Мы в Точка Банке делаем свою LLM. Чтобы она работала хорошо, недостаточно просто обучить её на куче текстов. Для получения осмысленного и предсказуемого поведения модели, нужен Alignment — дообучение с учётом предпочтений и ограничений. В статье расскажу, какие методы применяют в современных моделях, и как мы адаптировали их под себя.

продолжить чтение

GSPO (Qwen RL Algorithm by Alibaba Cloud)

😎 Следуй за белым кроликом 💊📌 Telegram @TheWeeklyBrief — краткие обзоры и подкасты 📰🎧🐇📌 GitHub Pages — углублённый разбор статей, ныряем в кроличью нору 📝💻🐾СодержаниеВведениеПроблема существующих методовМетодология GSPOКлючевые алгоритмические различияРезультаты экспериментовПрактическое применение и преимущества для инфраструктурыЗначение и будущие последствия1. Введение

продолжить чтение

RL-агент для алгоритмической торговли на Binance Futures: архитектура, бэктест, результаты

продолжить чтение

«Скайнет» наоборот: как вырастить и обучить ИИ с помощью Дарвин-Гёдель машины для улучшения человеческой демографии

Разрабатываем и растим «цифрового губера» - консультанта по вопросам государственного политического управления, демографии и миграции. Решаем задачу оптимизации экономики и миграционной политики для устойчивого демографического роста в 89 регионах с помощью   взаимодействующих друг с другом и обменивающихся опытом ИИ-агентов.   Мультиагентное обучение на основе мутаций, скрещивания и эволюции,  Multi-Agent Deep Deterministic Policy Gradient и Darwin Gödel Machine.

продолжить чтение

12
Rambler's Top100