MADDPG为什么能解决多智能体环境的不稳定问题

wagh311

请问一下大家，MADDPG为什么能解决环境的不稳定问题啊？我看论文里的解释是：MADDPG背后的一个主要动机是，如果我们知道所有智能体采取的行动，即使策略发生变化，环境也是稳定的，因为对于任何πi=π′iπi=πi′，有P(s′|s,a1,...,aN)=P(s′|s,a1,...,aN,π′1,...,π′N)P(s′|s,a1,...,aN)=P(s′|s,a1,...,aN,π1′,...,πN′)。只要我们没有像大多数传统的RL方法那样，明确地以其他智能体的行为作为条件，那么就没关系。这段话该怎么理解啊？

Document