我们研究了参数模型何时以及如何在强化学习中最有用的问题。特别是,我们研究了参数模型和经验回放之间的共性和差异。基于回放的学习算法与基于模型的方法具有重要的特点,包括计划能力:在没有额外数据的情况下使用更多的计算来改进预测和行为。我们讨论何时期望从这两种方法中获益,并在此背景下解释先前的工作。我们假设,在适当的条件下,如果模型仅用于从观察到的状态中为无模型的更新规则生成虚构的转换,则基于重放的算法应与基于模型的算法竞争或优于基于模型的方法。我们在雅达利2600电子游戏上验证了这一假设。基于重放的算法获得了最先进的数据效率,比参数模型的先前结果有所改进。此外,我们还讨论了使用模型的不同方法。我们表明,当使用模型执行信贷分配(例如,直接学习价值或政策)时,向后计划比向前计划更好,尽管后者似乎更常见。最后,我们论证并证明,提前计划立即的行为,而不是信贷分配是有益的。

我们考虑的一般环境是学习从与环境的有限交互中做出决策。尽管这种区别并不完全明确,但存在两个典型的算法家族:那些在没有明确的环境模型的情况下学习的算法(无模型),以及那些首先学习模型然后使用模型规划解决方案的算法(基于模型)。我们有充分的理由建立将某种世界模型学习为人工智能的能力。模型可以允许以策略和标量值预测所不能的方式传递知识,并且可以允许代理在知道如何最好地使用这些知识之前获得关于世界的丰富知识。此外,模型可以用于计划:使用额外的计算,而不需要额外的经验,以改进代理的预测和决策。在本文中,我们讨论了参数模型和经验回放之间的共性和差异[Lin,1992]。虽然基于重放的代理并不总是被认为是基于模型的,但重放具有许多我们经常与参数模型联系在一起的特性。特别是,我们可以利用存储在回放存储器中的经验进行“规划”,在与真实环境交互之间,我们可以使用额外的计算来改进代理的预测和策略。我们的工作部分受到了Kaiser等人最近的工作的启发。[2019],他表明,使用参数模型进行规划可以在多个Atari视频游戏上实现数据高效学习。主要比较是Rainbow DQN[Hessel et al.,2018a],它使用回放。我们解释了为什么他们的结果可能被认为是令人惊讶的,并表明在同类比较中,Rainbow DQN的表现优于基于模型的代理的得分,但经验和计算更少。


