对自己写的模型用强化学习求解，效果不如随机

使用过DDPG和SAC，但都是开始训练之后reward在初始reward上下的振荡，总体上一直在原地踏步，而且大不如随机action。修改lr和batchsize都没用，有大佬知道改如何修改吗。

之前尝试过离散化action的输出，很有效果。

认真看看这几篇博客吧，说不定有帮助

如何选择深度强化学习算法？MuZero/SAC/PPO/TD3/DDPG/DQN/等（2021-04） https://zhuanlan.zhihu.com/p/342919579

以及(John Schulman) - Nuts and bolts of deep RL research（非常推荐）

如果一次都没成功过，可能是代码实现的问题。

Document