用DDPG训练时，reward先收敛后发散

想请教各位：用DDPG来训练agent时，出现了reward开始时收敛、而后发散的问题，求问原因和解决办法，不胜感激！

FYO
一般应该是学习率的原因、或者试试换个优化函数

1、建议参考一下A3C算法论文里的不同学习率对下的收敛速度
2、建议阅读一下Deep Reinforcement learning that matters论文里的各种影响因素对强化学习算法的影响。

尝试调小学习率呢

Air-legend 谢谢！试了很多组学习率，目前看来效果不是特别明显

[未知] 好的！谢谢你的建议！

Document