Как я торговлю автоматизировал
Речь пойдёт о разработке системы алгоритмической торговли с использованием обучения с подкреплением (reinforcement learning, далее RL). Пройдём путь от идеи до работающей системы с разумной детализацией. Расскажу про свои ошибки: радовался single-seed успехам, верил
Ineffable Intelligence — что-то делают за 1 млрд.$
Кажется, что мы постепенно входим в эпоху, когда наличие продукта опция, а не обязательное условие для получения инвестиций.Сначала был Thinking Machines Lab (https://t.me/startuphunt/667)- $2 млрд на старте. Про реальные успехи пока особенно не слышно, хотя несколько человек уже вернулись обратно в OpenAI, что само по себе забавно. Потом Safe Superintelligence Inc. - тоже $2 млрд, оценка $32 млрд, продукта по сути нет, в интервью у Lex Fridman звучало красиво, но очень абстрактно. Mistral AI (https://t.me/startuphunt/838) уже что-то выкатывает и активно конкурирует.
Продвинутые RL алгоритмы: NPG, TRPO, PPO
Продолжение постов про RL:1) Intro Reinforcement Learning2) Reinforcement Learning: Model-free & Deep RL3) Reinforcement Learning: Policy gradient methods
[AI ⊂ TM] Машина Тьюринга и искусственный интеллект
ПререквизитыОбязательно - основы теории вычислений, искусственные нейронные сети.Желательно - генетические алгоритмы, RL-агенты.Почему машина Тьюринга?Действительно, почему машина Тьюринга (TM) сегодня в теме про искусственный интеллект (AI) ? Ведь AI сегодня это все больше про машинное обучение (ML), искусственные нейронные сети (
Reinforcement Learning: Model-free & Deep RL
Продолжаю погружаться в Reinforcement Learning. Здесь продолжение статьи Intro Reinforcement Learning. Если предыдущая часть помогла вам понять, что такое среда, агент, награды и функции ценности, то здесь мы сделаем шаг дальше: мы переходим к model-free алгоритмам и Deep Reinforcement Learning, где агент учится оптимальной стратегии, не имея прямого доступа к модели среды.Как и всегда, буду рада, если материал поможет кому-то в освоении RL. Пользуясь случаем, оставляю тг-канал Not Magic Neural Networks.
Что я вынес из Oxford Machine Learning Summer School 2025
Mathematical Institute, University of OxfordВдохновлено обзором про похожую школу — EEML.
Реализуем Q learning на Python
Обучение с подкреплением является (Reinforcement learning) одним из направлений ML. Суть этого метода заключается в том, что обучаемая система или агент учится принимать оптимальные решения через взаимодействие со средой. В отличие от других подходов, Reinforcement learning (RL) не требует заранее подготовленных данных с правильными ответами или явной структуры в них.
AI-движки на примере Knowledge Distillation, GAN, Reinforcement learning
Привет хабр! Я хочу поделиться своими наблюдениями и размышлениями на тему работы сеток-дуэтов в современных архитектурах нейросетей.Возьму как пример 3 подхода :Архитектура GAN, основанная на состязательности нейросетейАрхитектура Knowledge Distillation, основанная на совместном обучении и дистилляции Архитектура Reinforcement learning, основанная на последовательной или разделенной обработке 1. GAN - Генеративно - состязательные сети.

