【α-Rank】多智能体协作评估方法及效果

当前存在的模型基本上受限于智能体的数量、交互类型（超过二元）和经验游戏的类型（对称和非对称）这些维度中的一个或者多个，并且不能保证收敛到期望的游戏理论解决方案概念（通常是纳什均衡）。α-Rank自动提供对评估中的代理集合的排名，并提供相关组件的优势、弱点和长期动态的分析。

与纳什均衡（一种仅基于固定点的静态解决方案概念）相比，MCCs是基于马尔可夫链、康利在动力系统的指数理论，以及动力系统的核心要素——固定点、循环集、周期轨道和极限环。Deepmind在论文中引入数学证明，不仅提供现有连续和离散时间进化评估模型的总体和统一视角，而且揭示了α-Rank方法的正式基础。

目前，Deepmind已经在几种游戏中说明了这种方法，并在几个领域进行了经验验证，包括AlphaGo，AlphaZero，MuJoCo Soccer和Poker。

论文的主要贡献在三个方面：

全文： 1903.01373.pdf (arxiv.org)

Document