分层强化学习(HRL)在具有挑战性的长期任务中具有很大的采样效率学习潜力。特别是,让较高级别的人将子目标分配给较低级别的人,已经证明可以实现对困难问题的快速学习。然而,这种基于子目标的方法在设计时考虑到了静态强化学习环境,因此,即使在现实问题中它们无处不在,也会与主体无法直接控制的动态元素进行斗争。在本文中,我们介绍了带时间子目标的分层强化学习(HiTS),这是一种HRL算法,通过不仅指定要达到什么目标状态,而且指定何时达到目标状态,使智能体能够使其时间适应动态环境。我们讨论了根据这种定时子目标与较低级别的沟通如何为较高级别带来更稳定的学习问题。我们在一系列标准基准和三个新的具有挑战性的动态强化学习环境上的实验表明,我们的方法能够在现有最先进的基于子目标的HRL方法无法学习稳定解的情况下进行样本高效学习。
分层强化学习(HRL)最近开始兑现其承诺,即在困难的长期任务中进行高效采样学习。HRL背后的想法是将一个复杂的问题分解为一个更易于处理的子任务层次。定义这种层次结构的一种特别成功的方法是,让高级策略选择一个子目标,然后让低级策略负责实现该子目标[8]。由于由此产生的时间抽象,这种基于子目标的HRL方法已被证明能够以前所未有的效率学习高要求的任务[31,23,19]。为了充分发挥HRL的潜力,有必要设计能够在层次结构的所有层次上进行并行学习的算法。然而,较低级别人员在训练期间的行为变化带来了一个重大困难。从更高层次的角度来看,强化学习环境和更低层次的政策构成了一个有效的环境,决定了其行动将产生什么后果。在训练期间,较低水平的学习进度使这种有效的环境变得不稳定。如果这个问题得不到解决,在较低级别完全收敛之前,较高级别通常不会开始有效学习。这种情况类似于经理和工人试图一起解决一项任务,而他们用于交流的词汇的含义却在不断变化。显然,只有当工人对指令做出可靠反应时,才能找到稳定的解决方案。因此,为了实现真正的并行学习,层次结构中的所有级别都应该看到过渡,这些过渡看起来像是通过与静止有效的环境交互而生成的。现有算法通过事后适当替换上级选择的子目标,部分掩盖了有效环境的非平稳性。结合尽可能快地实现或朝着指定的子目标前进的子任务,该方法被证明能够在一系列具有挑战性的稀疏奖励、长期任务中实现快速学习[23,19]。然而,这些方法没有考虑的是,如果使用自适应时间抽象,则层次结构中的较高级别与半马尔可夫决策过程(SMDP)有效地交互,即过渡时间会变化。如果较低级别的目标是尽可能快地达到子目标,那么在训练期间,到达给定子目标并将控制权返回到较高级别所需的时间将减少。因此,更高级别看到的过渡时间分布将转移到更低的值,这引入了非平稳性的额外来源。当尝试快速穿越静态环境(如迷宫)时,这种转变符合整体任务,并有助于学习进度。然而,一旦出现超出代理人直接控制的动态因素,情况就会发生根本性变化。例如,考虑用球拍击打网球,使其返回地面上的指定点的任务。这显然要求球手计时动作,以便在球拍的方向和速度正确的情况下,用球拍截取球的轨迹。即使上级发现一系列子目标(指定球拍的状态)带来了正确的时机,只要下级学会更快地到达它们,这个解决方案就会停止工作。这将要求较高级别选择不同的、可能更长的子目标序列,这一过程将持续到较低级别完全收敛。因此,将更高级别暴露于过渡时间的非平稳分布将导致训练不稳定和学习缓慢。由于现实世界环境中包含的动态元素超出了智能体的直接控制,这是一种规则而非例外——想想人类与机器人或自动驾驶汽车在交通中的协作——这个问题可能会阻碍HRL在现实世界任务中的应用。