reinforcement-learning.

MARL-GPT: на пути к созданию универсальной модели для многоагентных сред

Привет, Хабр!Задача многоагентного обучения с подкреплением (MARL) возникает всякий раз, когда несколько агентов взаимодействуют в одной среде, чтобы совместными усилиями решить общую задачу. Например, это могут быть футболисты, юниты в StarCraft или просто множество роботов, которым нужно дойти до своих целей в одном лабиринте. Очень часто агенты внутри сред не могут общаться и полагаются только на свои наблюдения. А вот что именно агенты наблюдают и как именно могут действовать — зависит и от среды, и даже от конкретного задания внутри неё.

продолжить чтение

Как я выращивал цифрового гомункула и стал нейро-панком

Я с большой языковой модельюЗачем? Для создания скайнета, разумеется.Ну, и чтобы досконально разобраться, чем сейчас дышит эта чарующая меня сфера. А лучший способ разобраться в чем‑то — это попробовать обьяснить это другому.

продолжить чтение

Как я торговлю автоматизировал

Речь пойдёт о разработке системы алгоритмической торговли с использованием обучения с подкреплением (reinforcement learning, далее RL). Пройдём путь от идеи до работающей системы с разумной детализацией. Расскажу про свои ошибки: радовался single-seed успехам, верил

продолжить чтение

Математическое программирование vs RL: может ли ИИ догнать классику в оптимизации?

продолжить чтение

«Обучение на опыте» для малых моделей: переносим методы Physical Intelligence на ACT без использования VLA или диффузии

продолжить чтение

Ineffable Intelligence — что-то делают за 1 млрд.$

Кажется, что мы постепенно входим в эпоху, когда наличие продукта опция, а не обязательное условие для получения инвестиций.Сначала был Thinking Machines Lab (https://t.me/startuphunt/667)- $2 млрд на старте. Про реальные успехи пока особенно не слышно, хотя несколько человек уже вернулись обратно в OpenAI, что само по себе забавно. Потом Safe Superintelligence Inc. - тоже $2 млрд, оценка $32 млрд, продукта по сути нет, в интервью у Lex Fridman звучало красиво, но очень абстрактно. Mistral AI (https://t.me/startuphunt/838) уже что-то выкатывает и активно конкурирует.

продолжить чтение

Продвинутые RL алгоритмы: NPG, TRPO, PPO

Продолжение постов про RL:1) Intro Reinforcement Learning2) Reinforcement Learning: Model-free & Deep RL3) Reinforcement Learning: Policy gradient methods

продолжить чтение

[AI ⊂ TM] Машина Тьюринга и искусственный интеллект

ПререквизитыОбязательно - основы теории вычислений, искусственные нейронные сети.Желательно - генетические алгоритмы, RL-агенты.Почему машина Тьюринга?Действительно, почему машина Тьюринга (TM) сегодня в теме про искусственный интеллект (AI) ? Ведь AI сегодня это все больше про машинное обучение (ML), искусственные нейронные сети (

продолжить чтение

Reinforcement Learning: Model-free & Deep RL

Продолжаю погружаться в Reinforcement Learning. Здесь продолжение статьи Intro Reinforcement Learning. Если предыдущая часть помогла вам понять, что такое среда, агент, награды и функции ценности, то здесь мы сделаем шаг дальше: мы переходим к model-free алгоритмам и Deep Reinforcement Learning, где агент учится оптимальной стратегии, не имея прямого доступа к модели среды.Как и всегда, буду рада, если материал поможет кому-то в освоении RL. Пользуясь случаем, оставляю тг-канал Not Magic Neural Networks.

продолжить чтение

Что я вынес из Oxford Machine Learning Summer School 2025

Mathematical Institute, University of OxfordВдохновлено обзором про похожую школу — EEML.

продолжить чтение

12