reinforcement-learning.

«Обучение на опыте» для малых моделей: переносим методы Physical Intelligence на ACT без использования VLA или диффузии

продолжить чтение

Ineffable Intelligence — что-то делают за 1 млрд.$

Кажется, что мы постепенно входим в эпоху, когда наличие продукта опция, а не обязательное условие для получения инвестиций.Сначала был Thinking Machines Lab (https://t.me/startuphunt/667)- $2 млрд на старте. Про реальные успехи пока особенно не слышно, хотя несколько человек уже вернулись обратно в OpenAI, что само по себе забавно. Потом Safe Superintelligence Inc. - тоже $2 млрд, оценка $32 млрд, продукта по сути нет, в интервью у Lex Fridman звучало красиво, но очень абстрактно. Mistral AI (https://t.me/startuphunt/838) уже что-то выкатывает и активно конкурирует.

продолжить чтение

Продвинутые RL алгоритмы: NPG, TRPO, PPO

Продолжение постов про RL:1) Intro Reinforcement Learning2) Reinforcement Learning: Model-free & Deep RL3) Reinforcement Learning: Policy gradient methods

продолжить чтение

[AI ⊂ TM] Машина Тьюринга и искусственный интеллект

ПререквизитыОбязательно - основы теории вычислений, искусственные нейронные сети.Желательно - генетические алгоритмы, RL-агенты.Почему машина Тьюринга?Действительно, почему машина Тьюринга (TM) сегодня в теме про искусственный интеллект (AI) ? Ведь AI сегодня это все больше про машинное обучение (ML), искусственные нейронные сети (

продолжить чтение

Reinforcement Learning: Model-free & Deep RL

Продолжаю погружаться в Reinforcement Learning. Здесь продолжение статьи Intro Reinforcement Learning. Если предыдущая часть помогла вам понять, что такое среда, агент, награды и функции ценности, то здесь мы сделаем шаг дальше: мы переходим к model-free алгоритмам и Deep Reinforcement Learning, где агент учится оптимальной стратегии, не имея прямого доступа к модели среды.Как и всегда, буду рада, если материал поможет кому-то в освоении RL. Пользуясь случаем, оставляю тг-канал Not Magic Neural Networks.

продолжить чтение

Что я вынес из Oxford Machine Learning Summer School 2025

Mathematical Institute, University of OxfordВдохновлено обзором про похожую школу — EEML.

продолжить чтение

Реализуем Q learning на Python

Обучение с подкреплением является (Reinforcement learning) одним из направлений ML. Суть этого метода заключается в том, что обучаемая система или агент учится принимать оптимальные решения через взаимодействие со средой. В отличие от других подходов, Reinforcement learning (RL) не требует заранее подготовленных данных с правильными ответами или явной структуры в них. 

продолжить чтение

AI-движки на примере Knowledge Distillation, GAN, Reinforcement learning

Привет хабр! Я хочу поделиться своими наблюдениями и размышлениями на тему работы сеток-дуэтов в современных архитектурах нейросетей.Возьму как пример 3 подхода :Архитектура GAN, основанная на состязательности нейросетейАрхитектура Knowledge Distillation, основанная на совместном обучении и дистилляции Архитектура Reinforcement learning, основанная на последовательной или разделенной обработке 1. GAN - Генеративно - состязательные сети.

продолжить чтение

GEPA вместо RL: как рефлексивная эволюция промптов обгоняет обучение с подкреплением

АннотацияБольшие языковые модели (LLMs) всё чаще адаптируются к downstream-задачам с помощью методов RL, таких как Group Relative Policy Optimization (GRPO), которые нередко требуют тысячи прогонов для освоения новых задач. Мы утверждаем, что интерпретируемая природа языка может предоставлять LLM куда более богатую обучающую среду по сравнению с policy gradient’ами, основанными на разреженных скалярных наградах.

продолжить чтение

Скорость, стратегия и алгоритмы: будущее Формулы-1 в эпоху AI

Формула-1 всегда была местом пересечения инженерии и инноваций. В последние годы эта область инноваций расширилась за счёт внедрения искусственного интеллекта и машинного обучения.От стратегии по выбору шин до аэродинамического дизайна — эти технологии меняют то, как команды планируют работу, реагируют на вызовы и развиваются. Они не заменяют человеческих специалистов, принимающих решения, но трансформируют набор инструментов, с которыми ведут борьбу за результат.Моделирование стратегии с помощью reinforcement learning

продолжить чтение

12
Rambler's Top100