多主体强化学习(MARL)由于其适用于广泛的现实应用,最近受到了广泛的关注。然而,实现智能体之间的高效通信一直是MARL的首要问题。在这项工作中,我们提出了基于方差的控制(VBC),这是一种简单而有效的技术,可以提高MARL中的通信效率。通过在训练阶段限制智能体之间交换的消息的方差,可以有效地消除消息中的噪声成分,同时可以保留有用部分并由智能体使用以获得更好的性能。我们使用多个MARL基准进行的评估表明,我们的方法达到了2− 通信开销比最先进的MARL算法低10倍,同时允许智能体实现更好的总体性能。

如今,许多现实世界应用(例如,自动驾驶[16]、游戏[12]和机器人控制[9])需要在多智能体环境中执行强化学习任务。在MARL中,多个代理在共享环境中相互交互。每个代理只能访问环境的部分观测,并且需要基于部分观测以及与其他代理的直接和间接交互来做出本地决策。这种复杂的交互模型为MARL带来了许多挑战。特别是,在训练阶段,每个代理都可能动态地改变其策略,导致周围环境的动态变化和训练过程的不稳定性。更糟糕的是,每个代理都很容易将其策略过度匹配到其他代理的行为[11],这可能会严重影响整体性能。在研究文献中,有三条研究线试图缓解分散执行导致的不稳定性和效率低下。最常见的方法是独立Q-学习(IQL)[20],它将多主体学习问题分解为多个独立的单主体学习问题,从而允许每个主体独立学习和行动。不幸的是,这种方法没有考虑到环境动力学引起的不稳定性,因此常常存在收敛性差的问题。第二种方法采用集中训练和分散执行[18]范式,在训练阶段学习联合行动价值函数,以更好地协调代理人的行为。在执行过程中,每个代理独立行动,无需直接通信。第三种方法在执行期间引入代理之间的通信[17,3]。这种方法允许每个代理基于其本地观察以及从其他代理接收的信息动态调整其策略。尽管如此,它在执行期间的延迟和带宽方面引入了额外的通信开销,其有效性在很大程度上取决于所接收信息的有用性。在这项工作中,我们利用了第二种和第三种方法的优点。具体来说,我们考虑一个完全合作的场景,其中多个代理协作以实现共同目标。代理在多代理Q学习框架内以集中方式进行训练,并允许在执行期间相互通信。然而,与之前的工作不同,我们做了一些关键的观察。首先,对于许多应用程序,代理在做出操作决定之前等待周围所有代理的反馈通常是多余的。例如,当自动驾驶车辆上的前摄像头检测到危险距离限制内的障碍物时,它会触发“制动”信号2,而无需等待车辆其他部分的反馈。其次,从其他代理接收的反馈可能并不总是提供有用的信息。例如,自动驾驶车辆的导航系统应更多地关注感知系统(例如,摄像头、雷达)发送的信息,而在采取行动之前,应更少地关注车辆内部的娱乐系统。代理之间的完全(即所有对所有)通信模式可能导致带宽和延迟方面的显著通信开销,这限制了其在具有严格延迟要求和带宽限制的实际应用中的实用性和有效性(例如,实时交通信号控制、自动驾驶等)。此外,正如Jiang等人[7]所指出的,过多的交流可能会引入无用甚至有害的信息,甚至会影响学习过程的收敛。


