在存在许多队友的环境中,一项协作任务往往只涉及少数智能体,以往多智能体强化学习关注所有队友,学习完成任务的效率就受到了限制。这时,如何聚焦协作任务,学会仅与相关的队友协作,是提高学习效率的一个途径。南栖仙策与南京大学和清华大学团队合作提出了*分布式表征学习方法(Multi-agent Concentrative Coordination / MACC)*实现了这一技术,论文发表在IJCAI 2022上。
组织中效率的碰撞
在现代社会的快速发展中,组织效率的提高成为了一个迫切需求。在各种工作环境中,我们往往需要与不同的队友协同合作,以完成各种复杂的任务。然而,随着参与者数量的增加,保持高效率的协作变得愈发具有挑战性。另一方面,如果仅仅将任务完全分解为多个独立的模块,然后分配给不同的人去完成,这种情况下,团队成员们很容易只陷入于专注自己的任务,而忽略了对全局的影响,这也会导致整体目标协调不足和资源浪费。那么,如何在众多队友中精准定位关键合作伙伴,节省精力,实现高效协作呢?
多智能体们也遇到相似的问题,当面对越来越复杂的任务,当大规模的建模训练和信息处理耗费大量时间,对协作速度和稳定的要求却愈发苛刻,该如何找到单点聚焦与全局任务之间的平衡点,从而实现整个系统性能最优?
注意力和动态协调
分布式表征学习,MACC算法,利用任务结构可分解性来学习一种分散集中的子任务表示形式,使得每个智能体可以集中精力处理最相关的子任务,并且可以动态地适应环境变化和其他智能体行为变化。
MACC主要是通过识别任务中关键的协作伙伴及相关的协作任务,减少了无关智能体的干扰,从而提高了整体的学习效率。这种方法的核心思想是使智能体根据任务需求有选择地与特定的队友建立联系,实现更精准的协同合作。
在部署时,我们让每个智能体从自身的历史观测中推测队友和任务状态,分别生成对应的表征,然后和自己相关的信息计算相关度。通过与和自己相关度高的队友完成高相关的任务,让智能体和人类一样,首先聚焦于与自己相关度更高的任务,从而减少学习过程中在无关任务上的资源分配,提高学习效率,我们可以尽力避免资源的浪费,提高协作效率。
在论文中,我们用一个吃果子的可视化实验展示了MACC如何通过表征学习结合注意力机制,让智能体学会了临时分组。
这是多智能体强化学习常用的吃果子游戏,任务是多个不同等级的智能体合作去吃完不同等级的果子,只有当同时吃的多个智能体的等级和大于等于果子的等级才能吃。左图是一帧游戏画面,右边是对应的当时MACC生成的注意力权重矩阵,每行对应了每个智能体,每列对应了每个果子,每一格颜色的深浅代表着每个智能体对每个果子的注意力权重大小,颜色越深,智能体越聚焦于该果子。可以看到,当回合初始,智能体对环境队友认识有限,智能体的注意力分配比较随机。
随着游戏的进行,智能体对于当前环境与不同子任务有了更多认识并开始朝果子的位置前进,且他们的注意力权重主要聚焦于他们正要去收集的果子上,如上图,三号智能体聚焦于边上的三号果子,一、二、四号组成了临时团队,都聚焦于七号果子。
当三号智能体成功吃掉三号果子,其注意力也逐渐转移到场上剩余的七号果子,而一、二、四号的临时团队还在去吃七号果子的路上。
这种学到的隐式的合作模式验证了我们方法的有效性和出发点的正确性,即MACC通过对子任务和队友的推断,提高了学习效率。
MACC具体的实现框架如下图所示:
首先,每个子任务的表征会通过一个编码器推断出来,然后,我们使用注意力机制根据推断出的表征、队友信息和智能体自身的信息,得到与每个智能体自身最相关的若干子任务,从而指导协作策略的生成。
技术验证和延展
为了验证MACC方法的有效性,我们进行了大量实验,并与现有方法进行比较,在各种不同的协作环境中测试它的的性能。下图展示了在星际争霸微操环境中我们的算法与其他当时的先进算法和一些基线算法性能的比较情况,可以看到,我们的算法MACC在各种环境中都具有较高的学习效率,达到高效协作的目的。
此外,我们还发现,在多个合作型多智能体任务中,MACC方法显著优于各种基线算法,并且即使在无法分解任务的情况下也可以使用。这表明MACC方法具有广泛的适用性和可扩展性。具有显著的性能优势,有更高的学习效率,因此可以更好地应用于各种领域。