当前存在的模型基本上受限于智能体的数量、交互类型(超过二元)和经验游戏的类型(对称和非对称)这些维度中的一个或者多个,并且不能保证收敛到期望的游戏理论解决方案概念(通常是纳什均衡)。α-Rank自动提供对评估中的代理集合的排名,并提供相关组件的优势、弱点和长期动态的分析。
与纳什均衡(一种仅基于固定点的静态解决方案概念)相比,MCCs是基于马尔可夫链、康利在动力系统的指数理论,以及动力系统的核心要素——固定点、循环集、周期轨道和极限环。Deepmind在论文中引入数学证明,不仅提供现有连续和离散时间进化评估模型的总体和统一视角,而且揭示了α-Rank方法的正式基础。
目前,Deepmind已经在几种游戏中说明了这种方法,并在几个领域进行了经验验证,包括AlphaGo,AlphaZero,MuJoCo Soccer和Poker。
论文的主要贡献在三个方面:
引入多种群离散时间模型,即使在非对称游戏中也可以进行多玩家互动的进化分析;
MCC解决方案概念的引入,一种新的游戏理论概念,捕捉多智能体交互的动态,以及与离散时间模型的连接;
提出α-Rank:一般多种群设置的具体排序策略/算法。
*


