协作分散多智能体强化学习(MARL)中的一个巨大挑战是,当只获得团队奖励时,为每个个体智能体生成多样化的行为。之前的研究已经在奖励塑造或设计一个可以区别对待智能体人的集中批评者方面付出了很多努力。在本文中,我们建议将两个方向合并,并学习每个智能体的内在奖励函数,该函数在每个时间步长对智能体进行不同的激励。具体而言,特定智能体的内在奖励将涉及计算智能体的不同智能体批评者,以指导其个人策略的更新。同时,参数化的内在奖励函数将被更新,以最大化来自环境的预期累积团队奖励,从而使目标与原始MARL问题一致。该方法被称为MARL中的学习个体内在奖励(LIIR)。我们将LIIR与《星际争霸II》中许多最先进的战斗游戏MARL方法进行了比较。结果证明了LIIR的有效性,我们表明LIIR可以为每个个体智能体分配每个时间步长的有洞察力的内在奖励。

许多现实问题,如红绿灯控制[1]、自动驾驶车辆的协调[2]、资源管理[3]和多玩家视频游戏[4,5],可以自然地表述为合作多智能体系统,其中的目标是从智能体团队的角度最大化回报。当使用可以访问所有代理的联合或全局状态的集中式控制器来操纵代理时,代理之间的协调更容易,控制器的主要工作通常是在代理之间找到有效的通信方案。示例包括设计有效的集中式MARL架构的各种方法[5,6,7,8]。不幸的是,当代理被独立部署并且通信被禁用或禁止时,每个代理都必须根据其部分观察轨迹预测自己的行为条件。没有集中式控制器,每个代理都有责任在自己的决策上与其他代理协作。这给每个代理的策略的能力带来了很大的负担。更糟糕的是,在大多数真实世界的MARL应用程序中,代理只能获得团队奖励,从中很难推断出每个代理对团队成功的贡献,这使得代理之间的学习和协作变得非常重要。在区分代理人的信用方面已经付出了很多努力,这在MARL中被称为信用分配问题[9,10]。一般的方法是奖励塑造[5,11,12],然而,这需要大量的人力来为每个个体代理人分配精确的奖励。在一些现实任务中,例如减少交通网络中的延迟,甚至可能没有针对单个代理(示例中的车辆)的奖励功能的明确选择。常用方法的另一个分支尝试设计一个集中式批评器,它能够在训练期间区分代理的状态动作值[9,10],然后在测试期间执行分散执行。我们的方法在奖励塑造和批评学习之间建立了联系。也就是说,我们建议通过最大化集中式批评者来学习每个代理的参数化个体内在奖励函数。[13]中针对单主体学习场景引入了最优内在奖励问题,并在最近的一些RL方法[14,15,16]中进行了研究。受这个概念的启发,我们建议在多智能体系统中引入内在奖励设计,以在环境只返回团队奖励时区分智能体的贡献。具体来说,我们学习每个代理一个参数化的内在奖励函数,该函数在每个时间步输出该代理的内在奖励,以诱导多样化的行为。通过这些内在奖励,我们为每个代理定义了一个不同的代理预期折扣回报,它是来自环境的真实团队奖励和学习到的内在奖励的组合。使用actor-critic方法,在相应代理评论家的指导下更新每个代理的单个策略。更新固有奖励函数的参数以最大化来自环境的标准累积折扣团队回报。因此,整个程序的目标与原始MARL问题的目标一致。从优化的角度来看,所提出的方法可以被归类为双层优化,其中解决单个代理目标的问题被嵌套在外部优化任务中,从而最大化标准多代理回报。策略参数和内在奖励函数分别被视为内部优化问题和外部优化问题的参数。我们将所提出的方法称为MARL中的学习个体内在奖励(LIIR)。经验证明,在星际争霸II的战斗游戏中,LIIR在广泛的场景中优于许多最先进的MARL方法。我们还进行了深入的案例研究,以可视化学习到的内在奖励,结果表明,学习到的固有奖励功能可以为代理人产生不同的奖励信号,代理人也可以以协作的方式进行不同的行为。


