如何在离线强化学习(RL)中选择不同训练算法产生的策略和价值函数,这对于超参数调整至关重要,是一个重要的开放问题。现有的基于非策略评估(OPE)的方法通常需要额外的函数近似,因此需要超参数,从而造成了鸡同鸭蛋的局面。在本文中,我们设计了基于BVFT[XJ21]的无超参数策略选择算法,这是价值函数选择的最新理论进展,并证明了它们在Atari等离散行动基准中的有效性。为了解决由于连续动作域中的差评而导致的性能下降,我们进一步将BVFT与OPE相结合,以获得两个方面的最佳结果,并获得了一种基于Q函数的OPE的超参数调整方法,将理论保证作为副产品。

当高保真模拟器不可用时,从历史数据中学习良好的策略,而无需交互式访问实际环境,或离线(批量)强化学习(RL),是将RL应用于真实场景的一种很有前途的方法[LKTF20]。尽管训练算法发展迅速,但一个悬而未决的紧迫问题是如何调整它们的超参数,有时被称为离线策略选择问题[Pai+20;YDNTS20;Fu+21]。标准方法将问题简化为政策外评估(OPE),该评估评估候选政策的预期回报,并据此进行选择。不幸的是,OPE本身是一个困难的问题,重要度抽样等标准估计器会遭受指数(水平内)方差[LMS15;JL16]。尽管存在多项式方差估计器,使用TD(例如,Fitted-Q Evaluation,或FQE[LVY19])或边缘化重要性抽样[LLTZ18;NCDL19;UHJ20],但它们需要额外的函数近似,导致需要仔细选择的另一组超参数(例如,神经网络架构)。[Pai+20]最近得出结论,FQE对于离线策略选择是有效的,但“剩下的一个重要挑战是如何为FQE选择超参数”。(顺便说一句,我们可以在第5节中作为我们方法的副产品来解决这个问题。)换句话说,为了调整训练的超参数,我们需要调整OPE的超参数。为此,我们想问:我们能为离线策略选择设计有效的无超参数方法吗?理论文献[FS11]对该问题进行了研究,大多重新表述,以便我们在价值函数中间接选择,而不是在政策中权衡直接性和可操作性。更准确地说,[FS11]假设训练算法产生候选Q函数Q1、Q2、……、Qm,这是一个合理的假设,因为大多数离线算法产生值函数作为副产品。目标是选择齐≈ 问题-假设一个存在,使得诱导贪婪政策πQi接近最优。而kQ−Qk只是πQ性能的代用品,希望Q≈ Q通过估计Bellman误差(或残差)kQ,可以更容易地从保持数据中验证,而无需附加函数近似− T Qk。不幸的是,kQ− T Qk不适用于随机环境中的统计估计[SB18]。对TD误差进行平方的天真估计器(见命题3中的“1-样本BR”)存在臭名昭著的双采样偏差[Bai95],并且去偏方法需要额外的函数近似(以及超参数)[ASM08;FS11]。在原型真实世界应用中,尽管缺乏理论保证,但通常使用无超参数启发式,如选取最高Q[GGMVS20],我们将在实验中与之进行比较。在本文中,我们基于最近在值函数选择方面的理论突破来解决这个问题:[XJ21]提出了一种理论算法BVFT,它提供了一种双采样问题的解决方案,而不需要额外的函数近似;他们估计了一种形式的预测贝尔曼误差作为kQ的替代− Qk、 其中用于投影的函数类是从候选Q本身创建的。详见第3节。我们的贡献有两方面:1.我们基于新颖的理论观察设计了一个BVFT的实际实现,去除了决定离散化分辨率的最后一个超参数。我们根据经验证明,BVFT在雅达利游戏等离散动作基准测试中表现良好,有时使用的数据比基于FQE的策略选择所需的数据少20倍。2.香草BVFT在连续动作基准测试中性能下降,其中训练算法通常具有演员-评论家结构,并输出Q远离Q的(π,Q)对?出于各种原因。为了应对这一挑战,我们提出了BVFT-PE,它是BVFT的一个变体,允许我们在(π,Q)对中进行选择,并在其中Q≈ Qπ和π产生高回报。为了进一步解决来自批评者的Q通常是Qπ的差拟合问题,我们建议使用多个OPE算法来重新拟合Qπ,并在生成的(π,Q)对中运行BVFT-PE。虽然OPE算法通常有许多需要设置的超参数,但BVFT-PE会自动在它们之间进行选择,使得很少甚至没有超参数无法设置。这使我们能够将OPE和BVFT的优势结合起来,实现两个世界的最佳。我们还显示了额外的结果,BVFT-PE可以用于基于Q函数的OPE中的超参数调谐,并提供了独立感兴趣的理论保证。


