离线强化学习(A Minimalist Approach to Offline Reinforcement Learning)

RLer

离线强化学习（RL）定义了从固定批次数据中学习的任务。由于分布外行为的价值估计存在错误，大多数离线RL算法都采用约束策略或用数据集中包含的行为规范策略的方法。基于预先存在的RL算法，为使RL算法离线工作而进行的修改以增加复杂性为代价。离线RL算法引入新的超参数，并经常利用生成模型等二级组件，同时调整底层RL算法。在本文中，我们的目标是使深度RL算法在最小变化的情况下工作。我们发现，通过简单地将行为克隆项添加到在线RL算法的策略更新中并对数据进行规范化，我们可以匹配最先进的离线RL算法。由此产生的算法易于实现和调整基线，同时通过消除以前方法的额外计算开销，将总运行时间减少了一半以上。

论文pdf： https://papers.nips.cc/paper/2021/hash/a8166da05c5a094f7dc03724b41886e5-Abstract.html

发表在： 35th Conference on Neural Information Processing Systems (NeurIPS 2021)

传统上，强化学习（RL）被认为是在线学习的一种范例，其中RL智能体与其环境之间的交互是智能体如何学习的根本问题。在离线RL（历史上称为批量RL）中，智能体从一个固定大小的数据集中学习，该数据集由一些任意且可能未知的过程收集[Lange等人，2012]。消除与环境交互的需要是值得注意的，因为数据收集通常是昂贵的、有风险的或具有挑战性的，尤其是在现实应用中。因此，离线RL能够使用先前记录的数据或利用专家（如人工操作员），而不存在与未经培训的RL智能体相关的任何风险。不幸的是，离线RL的主要好处，即缺乏环境交互，也是它成为一项具有挑战性的任务的原因。虽然大多数非策略RL算法适用于离线设置，但由于“外推错误”，它们往往表现不佳：策略评估中的一个错误，智能体往往对数据集中未包含的状态-动作对的值估计不足。这反过来影响了政策改进，在政策改进中，智能体人学会更喜欢价值被高估的分配外行为，从而导致绩效不佳[Fujimoto等人，2019b]。这个问题的解决方案类围绕着这样一个想法：学习的策略应该保持接近数据生成过程（或行为策略），并且已经被赋予了各种名称（如批量约束[Fujimoto等人，2019b]、KL控制[Jaques等人，2019]、行为正则化[Wu等人，201]或政策约束[Levine等人，2020]），这取决于如何选择实施这种“亲密”。虽然有许多离线RL的建议方法，但我们注意到，很少有真正“简单”的方法，甚至那些声称对底层在线RL算法进行少量添加的算法也进行了大量的实现级别调整。在其他情况下，存在未提及的超参数或二级组件，如生成模型，这使得离线RL算法难以再现，甚至更难以调整。此外，这种细节的混合减慢了算法的运行时间，并使性能增益的因果归因和跨算法的技术转移变得困难，就像许多在线RL算法一样[Henderson等人，2017年，Tucker等人，2018年，Engstrom等人，2020年，Andrychowicz等人，2021，Furuta等人，2021]。这激发了离线RL中对更多极简主义方法的需求。

Document