我们研究基于文本的游戏的强化学习(RL),这是自然语言背景下的交互式模拟。虽然已经开发了不同的方法来表示环境信息和语言动作,但现有的RL智能体没有任何推理能力来处理文本游戏。在这项工作中,我们的目标是利用知识图进行显式推理,以进行决策,从而生成智能体的行为并由可解释的推理过程支持。我们提出了一种堆叠的分层注意力机制,通过利用知识图的结构来构造推理过程的显式表示。我们在许多人造基准游戏上广泛评估了我们的方法,实验结果表明,我们的方法比现有的基于文本的智能体性能更好。

语言在人类智力和认知中起着核心作用[14,43]。基于文本的游戏[13,20],其中状态和动作都由文本描述描述,是研究语言知情决策过程的合适模拟环境。这些游戏可以被视为自然语言处理(NLP)和强化学习(RL)任务的交叉点[35]。为了通过RL解决基于文本的游戏,智能体必须解决许多挑战,例如从文本中学习表示[42]、基于部分观察[4]做出决策、处理组合动作空间[57]和稀疏奖励[56]。通常,基于文本的游戏的现有智能体可以分为基于规则的智能体和基于学习的智能体。基于规则的智能体,如NAIL[21],基于预定义的规则、工程技巧和预先训练的语言模型来解决游戏。由于严重依赖游戏的先验知识,这些智能体缺乏灵活性和适应性。随着深度强化学习的进展[38,39],基于学习的智能体(如LSTM-DRQN[42])越来越受欢迎,因为它们纯粹从交互中学习,而不需要像以前那样昂贵的人类知识。最近,考虑到其结构记忆可以保持丰富的信息,知识图(KG)已被纳入RL智能体中,以帮助解决基于文本的游戏[1,4,3]。虽然已经对从文本观察中表示有用信息[3,4,42]和减少动作空间[20,57]进行了大量研究,但很少有RL智能体解决基于文本的游戏的推理过程。除了将问题映射为答案之外,人类还有推理能力− 他们可以重用知识[50],或者从问题和知识库中合成支持事实(例如,场景中对象之间的关系)来解释答案[10,30]。我们相信,具有推理能力的RL智能体在解决基于文本的游戏时将更好地模仿人类的决策,并提高性能。就RL智能体而言,我们考虑通过利用KG来增强智能体的推理能力。虽然现有的研究[3,4,58]将幼儿园视为处理部分可观测性的观察的一部分,但他们忽略了幼儿园的推理潜力[12,27]。此外,推理的有效性受到两个问题的制约。首先,现有的基于KG的智能体构建一个单独的KG,因此很难维护细粒度信息(例如,对象关系的类型、信息的新旧程度)。其次,多模态输入,如文本观察和KG,通过简单的连接进行聚合,从而无法充分利用它们各自的优势。我们认为,一个智能主体应该有能力在考虑关系和时间意识的情况下进行显式推理,从而做出决策。在本文中,我们的目标是为基于文本的游戏设计一个具有推理过程的增强RL智能体。我们提出了一种新的方法,称为带有知识图的堆叠分层注意力(SHA-KG)2,以使智能体能够通过分层结构对游戏进行多步推理。简言之,为了利用KG的结构信息来维护智能体对游戏环境的知识,我们首先考虑具有不同语义含义的KG子图,以便考虑关系和时间意识。其次,设计了一个堆叠的分层关注模块,以从多模态输入中构建有效的状态表示,从而考虑它们各自的重要性。我们的贡献包括四个方面。首先,我们的工作是在解决基于文本的游戏中追求推理的第一步。其次,我们建议将KG的子图纳入决策,以引入推理过程。第三,我们针对RL方法提出了一种新的堆叠分层注意力机制,该机制具有多级和多模态推理的特点。第四,我们在广泛的基于文本的基准游戏中广泛评估了我们的方法,与最先进的方法相比,取得了良好的结果。


