正在加载...
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
TRPO、ACER、ACKTR、PPO四种置信域算法的有什么共性和区别?
Richard
DeepRLearner
hijkzzz
都是为了提升样本效率,TRPO、PPO、ACKTR都是二阶优化算法
ACER是n-step off-policy
Document