最近使用Kullback-Leibler(KL)正则化作为核心组件的强化学习(RL)算法显示出优异的性能。然而,到目前为止,关于KL正则化为什么有帮助,理论上还知之甚少。我们研究了近似值迭代方案中的KL正则化,并表明它隐式平均q值。利用这一洞察力,我们提供了一个非常强的性能界限,这是第一个将两个理想方面结合起来的:对地平线的线性依赖性(而不是二次)和涉及估计误差的平均eect(而不是累积eect)的误差传播项。我们还研究了附加熵正则化器的更一般情况。由此产生的抽象方案包含许多现有的RL算法。我们的一些假设不适用于神经网络,因此我们用广泛的实证研究来补充这一理论分析。

在强化学习(RL)中,Kullback-Leibler(KL)正则化包括惩罚一项新政策与之前的政策相差太远,这是通过KL差异来衡量的。它是各种深度RL算法的核心,如信任区域策略优化(TRPO)[37](由信任区域约束驱动)或最大后验策略优化(MPO)[2](由控制作为概率推理的观点产生[26,16]),但没有太多理论保证。最近,Geist等人[20]通过Bregman发散分析了在更大正则化范围内运行的算法。他们得出的结论是,正则化在收敛性、收敛速度和误差传播方面没有坏处,但这些结果并不优于非正则化近似动态规划(ADP)中的相应结果。基于他们的形式主义,我们表明使用KL正则化隐含地平均了ADP方案中q函数的连续估计。利用这一洞察力,我们提供了一个强大的性能界限,这是第一个将两个理想方面结合起来的:1)它对时间范围具有线性依赖性(1≠ “)≠1、2)它表现出KL正则化的误差平均特性。时间范围内的线性依赖性与通常ADP的标准二次依赖性形成对比,后者很紧[35]。我们所知道的实现线性依赖的唯一方法是使用非平稳策略[8,35],从未导致实际的深度RL算法。更重要的是,界限涉及误差平均值的范数,而不是经典ADP的误差范数的贴现和。这意味着,虽然标准ADP不能保证在独立和中心误差的理想情况下收敛,但KL正则化允许在这种情况下收敛到最优策略。也享受这种错误补偿的唯一算法是动态策略编程(DPP)[7]和快速Q学习(SQL)[6],它们也(隐式)建立在KL正则化上,正如我们将对SQL所展示的那样。然而,他们对地平线的依赖性是二次的,他们不太适应深度学习环境[43]。我们还研究了实际算法中常见的附加熵正则化的情况,特别是两种正则化之间的相互作用。由此产生的抽象框架包含了各种现有的RL算法,其中一些算法之间的联系是已知的[20],但由于q值的隐式平均,许多其他算法是新的。我们强调,尽管我们的分析涵盖了仅考虑熵正则化的情况,但它并不能解释为什么在没有附加KL项的情况下它会有所帮助。一些人认为,拥有更高的熵有助于探索[38],另一方面,它对优化景观有着有益的影响[3],但它也会偏向MDP的解决方案[20]。我们的分析需要一些假设,特别是正则化贪婪步骤是在没有近似的情况下完成的。如果这在离散动作和线性参数化中是合理的,那么在考虑神经网络时就不成立。鉴于它们在今天的普遍性,我们用广泛的实证研究来补充我们的深入分析,该研究旨在观察现实的深层RL环境中的正则化的核心作用。

