使用过DDPG和SAC,但都是开始训练之后reward在初始reward上下的振荡,总体上一直在原地踏步,而且大不如随机action。修改lr和batchsize都没用,有大佬知道改如何修改吗。
之前尝试过离散化action的输出,很有效果。
magata
认真看看这几篇博客吧,说不定有帮助
实验室 推荐内容: http://www.deeprlhub.com/d/98-john-schulmandeeprl
强化学习调参经验集成: https://zhuanlan.zhihu.com/p/434495366
如何选择深度强化学习算法?MuZero/SAC/PPO/TD3/DDPG/DQN/等(2021-04) https://zhuanlan.zhihu.com/p/342919579
以及(John Schulman) - Nuts and bolts of deep RL research(非常推荐)
如果一次都没成功过,可能是代码实现的问题。