我有一个多智能体工程问题想要咨询一下各位大佬。
我们的环境是在MPE的simple_tag.py上进行的改进,当全部agent的数量为7个时,训练效果可以,行为符合预期。但当我们将agent的数量增加到19个时,奖励不变的情况下,在一个episode中,agent在最初的30-40个step表现很正常,都会为了增加得分而做出预期行为,但在后面一些的step中,几乎每个agent都在自己的位置上震荡而不去得分。(我们将--max-episode-len 设置成了60,即一个episode有60个step)
有大佬知道要怎么改进吗?或者有什么论文可以解决这个办法的吗?