关于多智能体强化学习算法和智能体博弈理论之间关系的一点疑问

一凡斯基 · 2021-07-20T01:04:34+00:00

所有多智能体强化学习算法一旦训练收敛，是否都收敛到了纳什均衡点？一个博弈过程会有不止一个纳什均衡点，那么如何说明算法收敛到了一个较优解？虽然对多智能体强化学习算法学了一点皮毛，但是对算法与智能体博弈理论之间的关系还是云里雾里的。在网上看到的多智能体强化学习算法里面对博弈这块讲的不是很多，有没有朋友推荐一下能系...

关于多智能体强化学习算法和智能体博弈理论之间关系的一点疑问

一凡斯基

所有多智能体强化学习算法一旦训练收敛，是否都收敛到了纳什均衡点？
一个博弈过程会有不止一个纳什均衡点，那么如何说明算法收敛到了一个较优解？
虽然对多智能体强化学习算法学了一点皮毛，但是对算法与智能体博弈理论之间的关系还是云里雾里的。在网上看到的多智能体强化学习算法里面对博弈这块讲的不是很多，有没有朋友推荐一下能系统理解多智能体强化学习领域的学习路线，还有如果想要对多智能体强化学习算法理解透彻一点，需要学习哪些与博弈相关的知识？
感谢！！！

Document