trpo.
Продвинутые RL алгоритмы: NPG, TRPO, PPO
Продолжение постов про RL:1) Intro Reinforcement Learning2) Reinforcement Learning: Model-free & Deep RL3) Reinforcement Learning: Policy gradient methods
«Индульгенция на право сомневаться»
Приключения серотонина в бесконечном цикле боли, или опиатная ломка у неторчка — ч.1
Тайны мозга еще ждут своего часа
Характеристики процесса запоминания
ТЕСТ на уровень воображения обоняния
Синдромы, возникающие при избирательном поражении правого и левого полушарий мозга у правшей
Продолжение постов про RL:1) Intro Reinforcement Learning2) Reinforcement Learning: Model-free & Deep RL3) Reinforcement Learning: Policy gradient methods