reinforcement-learning.

MARL-GPT: на пути к созданию универсальной модели для многоагентных сред

Привет, Хабр!Задача многоагентного обучения с подкреплением (MARL) возникает всякий раз, когда несколько агентов взаимодействуют в одной среде, чтобы совместными усилиями решить общую задачу. Например, это могут быть футболисты, юниты в StarCraft или просто множество роботов, которым нужно дойти до своих целей в одном лабиринте. Очень часто агенты внутри сред не могут общаться и полагаются только на свои наблюдения. А вот что именно агенты наблюдают и как именно могут действовать — зависит и от среды, и даже от конкретного задания внутри неё.

продолжить чтение

Оставлено в

Как я выращивал цифрового гомункула и стал нейро-панком

Я с большой языковой модельюЗачем? Для создания скайнета, разумеется.Ну, и чтобы досконально разобраться, чем сейчас дышит эта чарующая меня сфера. А лучший способ разобраться в чем‑то — это попробовать обьяснить это другому.

продолжить чтение

Оставлено в

Как я торговлю автоматизировал

Речь пойдёт о разработке системы алгоритмической торговли с использованием обучения с подкреплением (reinforcement learning, далее RL). Пройдём путь от идеи до работающей системы с разумной детализацией. Расскажу про свои ошибки: радовался single-seed успехам, верил

продолжить чтение

Оставлено в

Математическое программирование vs RL: может ли ИИ догнать классику в оптимизации?

продолжить чтение

Оставлено в

«Обучение на опыте» для малых моделей: переносим методы Physical Intelligence на ACT без использования VLA или диффузии

продолжить чтение

Оставлено в

Ineffable Intelligence — что-то делают за 1 млрд.$

Кажется, что мы постепенно входим в эпоху, когда наличие продукта опция, а не обязательное условие для получения инвестиций.Сначала был Thinking Machines Lab (https://t.me/startuphunt/667)- $2 млрд на старте. Про реальные успехи пока особенно не слышно, хотя несколько человек уже вернулись обратно в OpenAI, что само по себе забавно. Потом Safe Superintelligence Inc. - тоже $2 млрд, оценка $32 млрд, продукта по сути нет, в интервью у Lex Fridman звучало красиво, но очень абстрактно. Mistral AI (https://t.me/startuphunt/838) уже что-то выкатывает и активно конкурирует.

продолжить чтение

Оставлено в

Продвинутые RL алгоритмы: NPG, TRPO, PPO

Продолжение постов про RL:1) Intro Reinforcement Learning2) Reinforcement Learning: Model-free & Deep RL3) Reinforcement Learning: Policy gradient methods

продолжить чтение

Оставлено в

[AI ⊂ TM] Машина Тьюринга и искусственный интеллект

ПререквизитыОбязательно - основы теории вычислений, искусственные нейронные сети.Желательно - генетические алгоритмы, RL-агенты.Почему машина Тьюринга?Действительно, почему машина Тьюринга (TM) сегодня в теме про искусственный интеллект (AI) ? Ведь AI сегодня это все больше про машинное обучение (ML), искусственные нейронные сети (

продолжить чтение

Оставлено в