强化学习的离线方法有助于弥合强化学习研究与现实应用之间的差距。它们使得从离线数据集学习策略成为可能,从而克服了现实世界中与在线数据收集相关的问题,包括成本、安全或伦理问题。在本文中,我们提出了一个称为RL Unplugged的基准来评估和比较离线RL方法。RL Unplugged包括来自不同领域的数据,包括游戏(如Atari基准)和模拟运动控制问题(如DM control Suite)。数据集包括部分或完全可观测的域,使用连续或离散动作,具有随机与确定性动力学。我们为RL Unplugged中的每个域提出了详细的评估协议,并使用这些协议对监督学习和离线RL方法进行了广泛的分析。我们将发布所有任务的数据,并开源本文中提出的所有算法。我们希望我们的一套基准将提高实验的可重复性,并使其能够在有限的计算预算下研究具有挑战性的任务,从而使RL研究更具系统性,在整个社区更容易获得。向前看,我们将RL Unplugged视为一个活的基准套件,它将随着研究社区和我们自己贡献的数据集而发展和壮大。我们的项目页面位于github上。
强化学习(RL)已经取得了重要突破,包括直接从原始感官流中学习[Mnih等人,2015],解决诸如围棋[Silver等人,2016]、星际争霸II[Vinyals等人,2019]、DOTA[Berner等人,2019]等长时间推理问题,以及学习高维模拟机器人的运动控制[Heess等人,2017,Akkaya等人,201]。然而,其中许多成功在很大程度上依赖于代理与环境的重复在线交互。尽管在模拟方面取得了成功,但RL在现实应用中的应用仍然有限。发电厂、机器人、医疗系统或自动驾驶汽车的运行成本很高,不适当的控制可能会产生危险的后果。它们不容易与RL中探索的关键思想和在线RL算法的数据要求兼容。然而,大多数真实世界的系统在正常运行时会产生大量数据。人们对用于强化学习的离线方法重新产生了兴趣,1这种方法可以从记录的数据中学习新的策略,而无需与环境进行任何进一步的交互,因为其潜在的现实世界影响。离线RL可以帮助(1)使用现有数据集对RL代理进行预训练,(2)基于其利用固定交互数据集的能力对RL算法进行经验评估,以及(3)弥合RL与现实应用之间的学术兴趣差距。离线RL方法【例如Agarwal等人,2020年,Fujimoto等人,2018年】在众所周知的基准域上显示了有希望的结果。然而,非标准化的评估协议、不同的数据集和缺乏基线使得算法比较困难。潜在现实世界应用领域的重要特性,如部分可观测性、高维感官流(如图像)、多样的动作空间、探索问题、非平稳性和随机性,在当前离线RL文献中表现不足。这使得很难评估离线RL算法的实际适用性。RL的再现性危机[Henderson等人,2018]在离线RL中非常明显。几项工作在其论文中强调了这些再现性挑战:Peng等人。[2019]讨论了MPO算法的实现困难,Fujimoto等人[2019]提到,由于实现的复杂性,省略了SPIBB-DQN的结果。就我们而言,我们在实施SAC方面遇到了困难[Haarnoja等人,2018]。我们还发现很难对BRAC[Wu等人,2019]和BCQ[Fujimoto等人,2018]进行缩放。这并不表明这些算法不起作用。只有实现细节很重要,比较算法并确保其可再现性很困难。本文的目的是通过提出通用基准、数据集、评估协议和代码来帮助解决这个问题。具有强大基准的大型数据集的可用性是机器学习在许多领域取得成功的主要因素。这方面的例子包括视觉挑战,如ImageNet[Deng等人,2009年]和COCO[Veit等人,2016年],以及游戏挑战,其中模拟器为AlphaGo[Silver等人,2016]和OpenAI Five[Berner等人,2019]等在线RL代理产生数百年的经验。相比之下,缺乏具有明确基准的数据集阻碍了RL在现实应用中的类似进展。本文旨在纠正这一点,以促进该领域的合作研究和可衡量的进展。为此,我们引入了一个新的任务域和相关数据集集合以及一个明确的评估协议。我们包括广泛使用的领域,如DM控制套件[Tassa等人,2018]和Atari 2600游戏[Bellemare等人,2013],但也包括对强大的在线RL算法仍然具有挑战性的领域,例如真实世界RL(RWRL)套件任务[Dulac Arnold等人,2020]和DM运动任务[Heess等人,2017,Merel等人,2019a,b,2020]。通过标准化环境、数据集和评估协议,我们希望使离线RL的研究更具可再现性和可访问性。我们将我们的基准测试套件称为“RL Unplugged”,因为离线RL方法可以在没有任何参与者与环境交互的情况下使用它。