利用平均值：强化学习中KL正则化的分析

RLer

最近使用Kullback-Leibler（KL）正则化作为核心组件的强化学习（RL）算法显示出优异的性能。然而，到目前为止，关于KL正则化为什么有帮助，理论上还知之甚少。我们研究了近似值迭代方案中的KL正则化，并表明它隐式平均q值。利用这一洞察力，我们提供了一个非常强的性能界限，这是第一个将两个理想方面结合起来的：对地平线的线性依赖性（而不是二次）和涉及估计误差的平均eect（而不是累积eect）的误差传播项。我们还研究了附加熵正则化器的更一般情况。由此产生的抽象方案包含许多现有的RL算法。我们的一些假设不适用于神经网络，因此我们用广泛的实证研究来补充这一理论分析。

论文pdf： https://papers.nips.cc/paper/2020/hash/8e2c381d4dd04f1c55093f22c59c3a08-Abstract.html

发表在： 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada.

在强化学习（RL）中，Kullback-Leibler（KL）正则化包括惩罚一项新政策与之前的政策相差太远，这是通过KL差异来衡量的。它是各种深度RL算法的核心，如信任区域策略优化（TRPO）[37]（由信任区域约束驱动）或最大后验策略优化（MPO）[2]（由控制作为概率推理的观点产生[26，16]），但没有太多理论保证。最近，Geist等人[20]通过Bregman发散分析了在更大正则化范围内运行的算法。他们得出的结论是，正则化在收敛性、收敛速度和误差传播方面没有坏处，但这些结果并不优于非正则化近似动态规划（ADP）中的相应结果。基于他们的形式主义，我们表明使用KL正则化隐含地平均了ADP方案中q函数的连续估计。利用这一洞察力，我们提供了一个强大的性能界限，这是第一个将两个理想方面结合起来的：1）它对时间范围具有线性依赖性（1≠ “)≠1、2）它表现出KL正则化的误差平均特性。时间范围内的线性依赖性与通常ADP的标准二次依赖性形成对比，后者很紧[35]。我们所知道的实现线性依赖的唯一方法是使用非平稳策略[8，35]，从未导致实际的深度RL算法。更重要的是，界限涉及误差平均值的范数，而不是经典ADP的误差范数的贴现和。这意味着，虽然标准ADP不能保证在独立和中心误差的理想情况下收敛，但KL正则化允许在这种情况下收敛到最优策略。也享受这种错误补偿的唯一算法是动态策略编程（DPP）[7]和快速Q学习（SQL）[6]，它们也（隐式）建立在KL正则化上，正如我们将对SQL所展示的那样。然而，他们对地平线的依赖性是二次的，他们不太适应深度学习环境[43]。我们还研究了实际算法中常见的附加熵正则化的情况，特别是两种正则化之间的相互作用。由此产生的抽象框架包含了各种现有的RL算法，其中一些算法之间的联系是已知的[20]，但由于q值的隐式平均，许多其他算法是新的。我们强调，尽管我们的分析涵盖了仅考虑熵正则化的情况，但它并不能解释为什么在没有附加KL项的情况下它会有所帮助。一些人认为，拥有更高的熵有助于探索[38]，另一方面，它对优化景观有着有益的影响[3]，但它也会偏向MDP的解决方案[20]。我们的分析需要一些假设，特别是正则化贪婪步骤是在没有近似的情况下完成的。如果这在离散动作和线性参数化中是合理的，那么在考虑神经网络时就不成立。鉴于它们在今天的普遍性，我们用广泛的实证研究来补充我们的深入分析，该研究旨在观察现实的深层RL环境中的正则化的核心作用。

Document