MAPPO训练效果好训练效果一般

到底是为什么多智能体强化学习好几个方法都是这样，保存下来模型以后评估的时候差很多，训练明明已经稳定了，在同样的环境下开启的评估，也开启了eval()，有没有大佬懂，奖励看着也收敛了就是好像那个criticloss还在升高的趋势

Document