离线强化学习存在分布外问题和外推错误。大多数方法惩罚分布外状态动作对或将训练后的策略规则化为行为策略,但不能保证消除外推误差。我们提出了样本内行动者批判(IAC),它利用抽样重要性重抽样来执行样本内政策评估。IAC仅使用数据集中动作的目标Q值来评估训练后的策略,从而避免了外推错误。所提出的方法执行无偏的策略评估,并且在许多情况下具有比重要性抽样更低的方差。实验结果表明,与最先进的方法相比,IAC在Gym-MuJoCo运动域和更具挑战性的AntMaze域上获得了竞争性的性能。



强化学习(RL)旨在解决顺序决策问题,近年来受到了广泛关注(Mnih等人,2015)。然而,RL的实际应用遇到了一些挑战,如勘探期间的冒险尝试、耗时的数据收集阶段和高样本复杂性。离线RL能够在不与环境交互的情况下解决这些问题。它可以在训练期间摆脱不安全的探索,并可以利用现有的大规模数据集(Gulcehre等人,2020;Fu等人,2019)。然而,离线RL存在分布外(OOD)问题和外推错误(Fujimoto等人,2019)。为了克服这些问题,已经提出了许多工作。流行方法的一个分支惩罚OOD状态-动作对或将训练过的政策规范化为行为政策(Fujimoto&Gu,2021;Kumar等人,2020)。这些方法必须控制正则化程度,以平衡悲观和泛化,因此对正则化水平敏感(Fujimoto&Gu,2021)。此外,OOD约束不能保证避免外推误差(Kostrikov等人,2022)。另一个分支选择完全消除外推误差(Brandfonbrener等人,2021;Kostrikov等人,2022年)。这些方法通过在制定Bellman目标时仅查询数据集中动作的Q值来进行样本学习。然而,OneStep RL(Brandfonbrener等人,2021)根据SARSA(Sutton&Barto,2018)估计了行为策略的Q值,并仅基于Qvalue函数对策略进行了改进,发现数据集中隐藏的最优策略的潜力有限。IQL(Kostrikov等人,2022)依靠预期回归来执行隐式值迭代。当期望值接近1时,可以将其视为支持Q学习,但在这种情况下会出现不稳定性。因此,通过使用较小的期望值来获得次优解。此外,这两条研究线使训练的策略适应固定数据集的分布。然后出现了一个问题——“我们能否将样本学习的概念引入到迭代策略迭代中,这是解决RL的常用范式”?常规策略迭代不能以样本内的方式进行更新,因为经过训练的策略不可避免地会产生超出数据集(样本外)的操作,并为策略评估提供高估的Q目标。为了实现样本内学习,我们首先考虑从数据集中对目标动作进行采样,并通过重要性采样重新加权时间差梯度。然而,众所周知,重要性抽样存在高方差(Precup等人,2001),并会影响培训过程。在本文中,我们提出了样本内行为批评(IAC),它执行迭代策略迭代,同时遵循样本内学习的原理来消除外推误差。我们采用采样重要性重采样(Rubin,1988)来减少方差并执行样本策略评估,该评估在从训练策略中采样时制定梯度。为此,我们使用SumTree数据结构,它允许根据重要性重采样权重进行采样。对于政策改进,我们利用优势加权回归(Peng等人,2019)来控制与行为政策的偏差。所提出的方法执行无偏的策略评估,并且在许多情况下具有比重要性抽样更小的方差。我们指出,与以前的方法不同,IAC在学习过程中动态调整数据集的分布以匹配训练的策略。我们在D4RL基准上测试IAC(Fu等人,2020),包括Gym-MuJoCo运动域和更具挑战性的AntMaze域。实证结果表明了我们提出的方法的有效性。