深度强化学习(RL)算法可以使用高容量深度网络直接从图像观察中学习。然而,这些高维观察空间在实践中提出了许多挑战,因为该政策现在必须解决两个问题:表征学习和任务学习。在这项工作中,我们分别解决这两个问题,通过显式学习潜在表征,可以加速从图像中的强化学习。我们提出了随机潜在行动者-批评者(SLAC)算法:一种样本高效且高性能的RL算法,用于直接从高维图像输入中学习复杂连续控制任务的策略。SLAC提供了一种新的原则性方法,通过学习紧凑的潜在表示,然后在模型的学习潜在空间中执行RL,将随机序列模型和RL统一为单一方法。我们的实验评估表明,在一系列困难的基于图像的控制任务中,我们的方法在最终性能和样本效率方面都优于无模型和基于模型的替代方案。

深度强化学习(RL)算法可以直接从原始的、低级别的观察(如图像)中学习解决任务。然而,这样的高维观察空间在实践中提出了许多挑战:一方面,很难直接从这些高维输入中学习,但另一方面,也很难从中提取出与任务相关的底层信息的紧凑表示。标准无模型深度RL旨在将表示学习和任务学习的这些挑战统一到一个端到端的训练过程中。然而,同时解决这两个问题是困难的,因为有效的政策需要有效的表示,而有效的表示需要来自政策或价值函数的有意义的梯度信息,同时仅使用无模型监管信号(即奖励函数)。因此,在实践中,使用标准端到端RL算法直接从图像中学习可能很慢、对超参数敏感且效率低下。相反,我们建议通过依赖预测模型学习来明确地获取潜在表示,并在学习的潜在空间中训练RL代理,将表示学习和任务学习分开。这减轻了表示学习的挑战,因为预测学习甚至在代理在任务上取得任何进展之前就受益于丰富且信息丰富的监督信号,从而导致整个学习过程的样本效率提高。在这项工作中,我们的预测模型通过单独处理表示学习来加速任务学习,与现有的基于模型的RL方法不同,现有的RL方式使用预测模型来生成廉价的合成经验[51,22,32]或用于规划未来[11,13,46,9,55,26]。我们提出的随机序列模型(图1)将高维观测建模为潜在过程的结果,具有高斯先验和潜在动力学。该模型表示一个部分观测的马尔可夫决策过程(POMDP),其中随机潜在状态使模型能够表示给定过去观测的任何状态变量的不确定性。精确求解这样的POMDP在计算上是困难的,因为它相当于解决了信念空间中的决策问题[5,33]。最近的工作将信念近似为来自正向滚动或粒子滤波的潜在样本的编码[8,30],或信念状态正向模型中的学习信念表示[21]。相反,我们提出了一种简单的近似,我们从作为推理框架的控制中得出,它训练马尔可夫评论家关于潜在状态样本,并训练参与者关于观察和行为的历史,从而产生了我们的随机潜在行为人评论家(SLAC)算法。尽管这种近似失去了完全POMDP求解器的一些优点(例如,减少不确定性),但它在实践中很容易且稳定地进行训练,在一系列具有挑战性的问题上取得有竞争力的结果。这项工作的主要贡献是一种新颖的原则性方法,将学习随机序列模型和RL集成到一种方法中,在模型的学习潜在空间中执行RL。通过将问题形式化为POMDP中的控制推理问题,我们表明变分推理导致了我们的SLAC算法的目标。通过证明SLAC在一系列基于图像的连续控制基准任务上显著优于先前的无模型和基于模型的RL算法,我们从经验上表明,SLAC受益于无模型RL的良好渐近性能,同时也利用了改进的潜在空间表示来提高样本效率。


