多智能体强化学习中，让所有智能体同构时，让他们参数共享时有没有理论保证？ - 深度强化学习实验室

多智能体强化学习中，让所有智能体同构时，让他们参数共享时有没有理论保证？

NanNan

PS:
（1）TRPO为何能收敛？
（2）如何克服环境的non-stationary?

RLer

知乎搜一下，记得之前看到过

Kaige2000

同问

Document