离线强化学习(RL)定义了从固定批次数据中学习的任务。由于分布外行为的价值估计存在错误,大多数离线RL算法都采用约束策略或用数据集中包含的行为规范策略的方法。基于预先存在的RL算法,为使RL算法离线工作而进行的修改以增加复杂性为代价。离线RL算法引入新的超参数,并经常利用生成模型等二级组件,同时调整底层RL算法。在本文中,我们的目标是使深度RL算法在最小变化的情况下工作。我们发现,通过简单地将行为克隆项添加到在线RL算法的策略更新中并对数据进行规范化,我们可以匹配最先进的离线RL算法。由此产生的算法易于实现和调整基线,同时通过消除以前方法的额外计算开销,将总运行时间减少了一半以上。

传统上,强化学习(RL)被认为是在线学习的一种范例,其中RL智能体与其环境之间的交互是智能体如何学习的根本问题。在离线RL(历史上称为批量RL)中,智能体从一个固定大小的数据集中学习,该数据集由一些任意且可能未知的过程收集[Lange等人,2012]。消除与环境交互的需要是值得注意的,因为数据收集通常是昂贵的、有风险的或具有挑战性的,尤其是在现实应用中。因此,离线RL能够使用先前记录的数据或利用专家(如人工操作员),而不存在与未经培训的RL智能体相关的任何风险。不幸的是,离线RL的主要好处,即缺乏环境交互,也是它成为一项具有挑战性的任务的原因。虽然大多数非策略RL算法适用于离线设置,但由于“外推错误”,它们往往表现不佳:策略评估中的一个错误,智能体往往对数据集中未包含的状态-动作对的值估计不足。这反过来影响了政策改进,在政策改进中,智能体人学会更喜欢价值被高估的分配外行为,从而导致绩效不佳[Fujimoto等人,2019b]。这个问题的解决方案类围绕着这样一个想法:学习的策略应该保持接近数据生成过程(或行为策略),并且已经被赋予了各种名称(如批量约束[Fujimoto等人,2019b]、KL控制[Jaques等人,2019]、行为正则化[Wu等人,201]或政策约束[Levine等人,2020]),这取决于如何选择实施这种“亲密”。虽然有许多离线RL的建议方法,但我们注意到,很少有真正“简单”的方法,甚至那些声称对底层在线RL算法进行少量添加的算法也进行了大量的实现级别调整。在其他情况下,存在未提及的超参数或二级组件,如生成模型,这使得离线RL算法难以再现,甚至更难以调整。此外,这种细节的混合减慢了算法的运行时间,并使性能增益的因果归因和跨算法的技术转移变得困难,就像许多在线RL算法一样[Henderson等人,2017年,Tucker等人,2018年,Engstrom等人,2020年,Andrychowicz等人,2021,Furuta等人,2021]。这激发了离线RL中对更多极简主义方法的需求。

