在强化学习(RL)中,学习在没有主动环境交互的情况下根据观测数据采取行动是一个众所周知的挑战。最近的方法涉及对学习到的策略或保守更新的约束,防止与数据集的状态动作分布的强烈偏差。尽管这些方法是使用非线性函数近似进行评估的,但理论证明大多限于表格或线性情况。鉴于深度强化学习的令人印象深刻的结果,我们认为有必要更清楚地理解这种环境中的挑战。根据赫尔德和海因1963年的经典实验,我们提出了“串联学习”实验范式,这有助于我们对离线强化学习中的困难进行实证分析。我们将函数近似与固定数据分布一起确定为最强因素,从而扩展了过去工作中提出的假设,但也具有挑战性。我们的结果为离线深度强化学习提供了相关见解,同时也为在线学习控制中观察到的现象提供了新的线索。



纯粹根据观察数据(即无环境交互)学习在环境中行动,通常称为离线强化学习,具有重要的现实意义和理论意义(参见[Levine等人,2020年]的最新调查)。在机器人和医疗保健等现实世界中,它的动机是从现有数据集学习的雄心和环境交互的高成本。它的理论吸引力在于数据分布的平稳性允许对学习算法进行更直接的收敛分析。此外,将学习与数据生成脱钩缓解了常见强化学习代理的实证分析中的一个主要困难,允许有针对性地研究学习动态,而不考虑其对行为的影响。最近的工作已将外推误差确定为离线(深度)强化学习的主要挑战[Achiam等人,2019年,Buckman等人,2021,Fujimoto等人,2019b,Fakoor等人,2021,Liu等人,2020年,Nair等人,2020],自举通常被强调为影响的原因或放大器:数据集中缺失或表现不足的状态动作对的值可能被过度估计,要么是暂时的(由于训练或数据不足),要么甚至是渐近的(由于建模或数据集偏差),导致潜在的严重执行不足的获取策略。校正反馈回路[Kumar et al.,2020b]在离线环境中严重缺失,其中,在与环境交互期间,通过利用价值高估值进行自我校正(而通过利用低估值进行校正)。为了缓解这种情况,通常提出了几个相关策略之一:政策或学习更新约束,防止偏离数据集涵盖的状态和行动,或满足某些不确定性边界[Fujimoto等人,2019a,b,Kumar等人,2019,2020c,Achiam等人,2019,Wang等人,2020b,Wu等人,2021,Nair等人,2020,Wu等,2019年,Yu等,2020],对战争价值过度估计的悲观主义倾向[Buckman等人,2021,Kidambi等人,2020]、用于提高状态空间覆盖率的大型和多样化数据集[Agarwal等人,2020],或学习模型以用合成数据填补空白[Schrittwieser等人,2021,Matsushima等人,2020]。尽管其中许多在表格或线性情况下具有理论依据[Thomas et al.,2015],但对实际相关的非线性情况缺乏保证。在本文中,我们从经典的Held和Hein[1963]心理学实验中引入的实验范式中获得灵感。该实验涉及将两个年轻动物受试者的动作和视觉感知相结合,以确保两者都接收到相同的视觉输入流,而只有一个受试者可以通过引导这对动物的动作来主动塑造该流(图1,左上角)。通过表明,尽管有相同的视觉体验,但只有活动的受试者获得了足够的视觉敏锐度,该实验确立了主动运动在学习视觉中的重要性。类似地,我们引入了“串联RL”设置,在训练循环中配对“主动”和“被动”代理,其中只有主动代理驱动数据生成,而两者都根据生成的数据执行相同的学习更新1。通过将学习动态与其对数据生成的影响解耦,同时保持在线学习设置的非平稳性,该实验范式有望成为RL算法精确实证研究的有价值的分析工具。保持主动和被动代理之间的架构、损失和至关重要的数据分布相等,或者以受控的方式改变它们,我们对被动(即非交互式、离线)学习的失败模式进行了详细的实证分析,并确定了数据分布、函数近似和学习算法的特性的影响因素。我们的研究证实了过去对离线学习失败模式的一些直觉,同时改进和扩展了深度RL案例中的发现。特别是,我们的结果表明,与先前假设的相比,经验上对自举的作用不那么关键,而预测错误的外推或过度泛化是关键的挑战,因为函数逼近器是在不充分的数据分布上训练的。除其他外,我们的实验在线性函数近似的表现良好(且分析研究良好)的情况和缺乏理论保证的非线性情况之间划出了一条清晰的边界。此外,我们描述了增强训练数据分布以支持成功离线学习的不同、更有效和更不有效的方法,例如,通过分析数据集大小和多样性、数据生成策略的随机性或少量自生成数据的影响。