在离线强化学习(RL)中,目标是仅基于与环境的历史交互的数据集来学习一种高回报的策略。离线训练RL策略的能力将大大扩展RL的应用范围、数据效率和实验速度。离线RL的先前工作几乎仅限于无模型RL方法。在这项工作中,我们提出了MOReL,一个基于模型的离线RL算法框架。该框架包括两个步骤:(a)使用离线数据集学习悲观MDP(P-MDP);(b) 学习该P-MDP中的近似最优策略。学习的P-MDP具有这样的特性,即对于任何策略,实际环境中的性能都近似低于P-MDP中的性能。这使它能够作为政策评估和学习的良好替代品,并克服基于模型的类RL模型开发的常见缺陷。理论上,我们表明MOReL对离线RL具有很强的性能保证。通过实验,我们表明MOReL在广泛研究的离线RL基准测试中匹配或超过了最先进的结果。此外,MOReL的模块化设计使其组件(例如模型学习、规划等)的未来进步能够直接转化为离线RL的改进。

通过利用大规模离线数据集[1,2,3]训练和部署深度学习模型[4,5,6,7],计算机视觉和NLP领域取得了巨大进展。相比之下,强化学习(RL)[8]通常被视为在线学习过程。RL代理在学习策略的同时通过与环境的交互迭代地收集数据。不幸的是,这种试错学习的直接实施方式通常是低效的,并且只有使用模拟器才可行[9,10,11]。与人工智能其他领域的进展类似,从离线数据集学习的能力可能是解锁样本效率和广泛使用RL代理的关键。离线RL,也称为批量RL[12],涉及仅使用一个或多个数据记录(行为)策略收集的静态离线数据集来学习高回报策略。由于数据已经被收集,离线RL将数据收集或探索抽象出来,并允许主要关注数据驱动的策略学习。这种抽象适用于安全敏感的应用,如医疗保健和工业自动化,在这些应用中,需要领域专家的仔细监督才能采取探索性行动或部署新政策[13,14]。此外,大型历史数据集在自动驾驶和推荐系统等领域很容易获得,其中离线RL可以用于改进当前部署的策略。由于使用静态数据集,离线RL面临着独特的挑战。在学习过程中,代理必须评估和推理各种候选策略更新。由于候选策略的状态访问分布与日志记录策略之间的偏差,这种离线策略评估尤其具有挑战性。此外,随着候选策略越来越偏离日志记录策略,这种困难在学习过程中加剧。由于策略更新,这种分布变化通常被称为分布变化,这是离线RL中的一个主要挑战。最近的研究表明,由于分布偏移和函数近似误差,直接使用离线数据集的非策略RL算法会产生较差的结果[15,16,17]。为了克服这一点,先前的工作已经提出了修改,如Q网络集成[15,18]和数据记录策略的正则化[19,16,18]。最值得注意的是,离线RL的先前工作几乎仅限于无模型方法[20,15,16,19,17,18,21]。


