我们提出了一种端到端、基于模型的深度强化学习智能体,它在规划过程中动态地关注其状态的相关部分。智能体在基于集合的表示上使用瓶颈机制,以迫使智能体在计划期间参与的实体数量减少。在实验中,我们研究了具有不同挑战的多组定制环境的瓶颈机制。我们一致观察到,该设计允许规划代理通过关注相关对象,在兼容的看不见的环境中概括其学习到的任务解决能力,从而提高分布外概括性能。

无论是在规划从办公室回家的路径,还是在陌生城市从酒店到机场的路径时,我们通常会关注一小部分相关变量,例如位置的变化或交通状况。关于这种路径规划技能如何在场景中推广的一个有趣假设是,这是由于与信息的有意识处理相关的计算[2,3,14]。有意识的注意力集中在一些必要的环境元素上,借助于对世界的内部抽象表示[43,14]。这种模式,也被称为第一意义上的意识(C1)[14],已被理论化,以实现人类的非凡适应性和学习效率[2,3,14,43,7,15]。有意识处理的一个核心特征是它涉及瓶颈,这迫使人们一次处理极少数环境特征之间的依赖关系[14,7,15]。尽管关注可用信息的子集似乎是有限的,但它有助于分布外(OOD)和对其他被忽略变量不同但仍不相关的情况的系统概括[7,15]。在本文中,我们将其中一些想法编码为强化学习代理。强化学习(RL)是一种从代理-环境交互中学习行为的方法[41]。然而,RL的大部分重大成功都是由深度、无模型的代理获得的[30,37,38]。尽管基于模型的RL(MBRL)由于使用额外模型的潜力而产生了大量研究[31],但其经验表现通常落后,最近出现了一些显著的例外[36,24,17]。我们的建议是从人类意识中获得灵感,构建一个学习有用状态空间的架构,在该架构中,可以随时将注意力集中在一小组变量上,其中“局部规划”1的方面通过现代深度RL技术实现[42,26]。具体而言,我们提出了一种端到端的潜在空间MBRL代理,它不需要像大多数现有工作中那样重建观测,并使用模型预测控制(MPC)框架进行决策时间规划[34,35]。从观察结果来看,代理将一组对象编码为状态,并使用选择性注意力瓶颈机制来规划选定的状态子集(第4节)。我们的实验表明,归纳偏差改善了一种特定形式的OOD泛化,其中在看似不同的环境设置中保持了一致的动态(第5节)。

