请问一下大家,MADDPG为什么能解决环境的不稳定问题啊?我看论文里的解释是:MADDPG背后的一个主要动机是,如果我们知道所有智能体采取的行动,即使策略发生变化,环境也是稳定的,因为对于任何πi=π′iπi=πi′,有P(s′|s,a1,...,aN)=P(s′|s,a1,...,aN,π′1,...,π′N)P(s′|s,a1,...,aN)=P(s′|s,a1,...,aN,π1′,...,πN′)。 只要我们没有像大多数传统的RL方法那样,明确地以其他智能体的行为作为条件,那么就没关系。这段话该怎么理解啊?