离线强化学习(RL)对于将RL算法应用于许多高风险任务非常重要。以在大域中产生可靠的新策略的方式进行离线RL是具有挑战性的:新的决策策略可能会访问批量数据支持之外的状态和操作,并且使用有限样本的函数近似和优化可以进一步提高学习策略的潜力,对其未来性能的估计过于乐观。最近一些解决这些问题的方法显示出了希望,但对其预期结果仍然过于乐观。为输出策略的性能提供有力保证的理论工作依赖于强集中性假设,这使得它不适用于行为策略的状态行为分布与某些候选策略之间的比率较大的情况。这是因为,在传统的分析中,误差范围随着这个比率而增大。我们表明,当集中性假设不成立时,在Bellman最优和评估备份中的低数据区域使用\emph{悲观值估计}可以产生更自适应和更强的保证。在某些设置中,他们可以在批处理数据探索的状态动作空间内找到近似最佳的策略,而不需要对集中性进行先验假设。我们通过示例性的MDP示例强调了悲观更新的必要性以及先前算法和分析的局限性,并演示了我们的算法与标准基准中其他最先进的批量RL基线的经验比较。


强化学习中的一个关键问题是如何从大型或无限状态空间中的非策略批处理数据中学习好策略。这个问题不仅与批次设置有关;许多在线RL算法使用越来越多的数据,如重放缓冲器[24,28]。因此,理解和推进批量RL可以帮助释放大型数据集的潜力,并可以改进在线RL算法。在本文中,我们关注基于近似策略迭代(API)和近似值迭代(AVI)的算法族,它们形成了许多无模型在线和离线RL算法的原型。在大的状态空间中,函数近似对于处理状态泛化也是至关重要的。然而,非策略学习、函数逼近和自举的致命三位一体[35]对无模型批量RL提出了挑战。一个特别的问题是,Bellman算子中的最大值可能会选择具有有限但有回报的样本的(s,a)对行动,这可能导致过度乐观的价值函数估计和表现不佳的政策[26]。
这个问题已经从算法和经验的角度进行了许多方面的研究。已经提出了不同的启发式方法[12,21,17],并证明其在经验上能够有效缓解这一弱点。然而,这些方法的理论分析仅限于表格问题设置,实际算法也与理论原型有很大不同。其他文献主要关注具有强大理论保障的方法。一些工作考虑安全批处理策略改进:只有在新策略比以前的策略有很大信心时,才部署新策略。然而,这种工作要么假设策略类可以枚举[38],这在许多重要情况下是不可行的;或者使用带有行为策略的正则化[37]作为启发式,这可以禁止明显不同但更好的策略。另一方面,在具有大或无限状态和策略空间的批量设置中,有许多对API和AVI算法的形式化分析[29,30,3,31,8,5,40]。这些结果对批次数据的分布做出了强有力的假设,即浓度条件。集中性确保了任何非平稳策略的诱导状态行为分布与批次数据中的状态行为分布之间的比率由一个称为集中性系数的常数上界。这是一个强有力的假设,在实践中很难验证,因为政策的空间及其诱导的国家行为分布是巨大的。例如,在关于过去医生选择和患者结果的医疗保健数据集中,对于许多患者情况,预后差的决策可能非常罕见或不存在。这导致了较大的集中系数,因此现有的性能界限[29,30,5,3]最终大得令人望而却步。即使数据集充分支持良好的政策(如另一位医生的决策政策),也会出现此问题。在政策制定方面,对集中度假设的各种放松进行了研究。例如,一些方法[15,16,1]确保了最优策略和初始状态分布之间的最大密度比的缩放,这是一个比集中性[34,1]温和得多的假设。不幸的是,在完全离线的批处理RL设置中,利用类似的假设并不简单,在这种情况下,数据不支持的部分状态空间中的策略质量的错误估计永远不会通过后续的在线数据收集来识别。