MADDPG收敛效果差问题

我想问一下在MADDPG训练时，平均reward为什么会出现这种反常的效果？

我使用的是OpenAI的multiagent-particle-envs-master环境，在simple_adversary即两绿一红抵达各自终点，防止对手离太近的环境。使用和论文一样的三层全连接网络，训练了20w次，以下是绿球的训练效果：

绿球的reward反常地先增后降，渲染的实际效果就是后期三个球朝三个不同的方向飞离，不管目标在哪，甚至离开目标前进，彼此之间没有任何追逐等动作。

actor和critic的学习率是1e-4和1e-5，折扣因子0.95，buffer是1e6，batch_size是256.

目前学习率，Buffer和batch全都修改过，都没有效果。

希望各路大神能指点迷津，感激不尽

建议先用原始代码运行，理解其中的原理吗，然后逐个参数改变，使用tensorboardX等查看曲线。

请问楼主解决了嘛？同样遇到这样的问题，头疼很久，方便说一下后续解决办法呀

我遇到的情况都是模型塌了（环境变化较大），性能越来越差，一般隔一段时间保存一次训练好的模型，然后选择模型变差之前的模型进行测试。

Document