深度强化学习的快速值跟踪

FeiY

Fast Value Tracking for Deep Reinforcement Learning
强化学习（RL）通过创建与环境交互的代理来解决顺序决策问题。然而，现有的算法通常将这些问题视为静态的，专注于模型参数的点估计以最大化预期回报，忽视了代理-环境交互的随机动态和不确定性量化的关键作用。我们的研究利用卡尔曼滤波范式引入了一种名为Langevinized Kalman Temporal Difference（LKTD）的新型可扩展采样算法，用于深度强化学习。该算法基于随机梯度马尔可夫链蒙特卡罗（SGMCMC），有效地从深度神经网络参数的后验分布中提取样本。在温和条件下，我们证明了LKTD算法生成的后验样本收敛到平稳分布。这种收敛不仅使我们能够量化与值函数和模型参数相关的不确定性，而且使我们能够在整个培训阶段的政策更新期间监控这些不确定性。LKTD算法为更稳健、适应性更强的强化学习方法铺平了道路。

在过去的十年里，强化学习在各种任务中取得了显著的成功，包括机器人技术（Kormushev等人，2013）、视频游戏（Silver等人，2016）、竞价策略（Jin等人，2018）和拼车优化（Xu等人，2018b）。作为一种数学模型，RL通过设计一个与环境交互的代理来解决顺序决策问题，目标是学习一个最优策略，使代理的预期总回报最大化。著名的基于值的算法，包括时间差分（TD）学习（Sutton，1988）、状态-动作-奖励-状态-动作（SARSA）（Sutton&Barto，2018）和Q学习，旨在通过学习状态值（或Q值）来得出最优策略。传统上，这些方法将状态值（或Q值）视为确定性函数，侧重于计算模型参数的点估计，从而忽略了代理环境交互中固有的随机性

在RL的背景下，一个公平的算法应该表现出以下特征：（i）不确定性量化，它解决了代理-环境交互的随机性，从而增强了学习策略的鲁棒性；（ii）动态性，它考虑了代理-环境交互系统的动态性，从而增强了RL技术的实用性；（iii）非线性近似，例如，它采用深度神经网络来近似值函数，从而扩大了算法的适用性；（iv）计算效率，可根据模型维度和训练样本大小进行扩展，促进在线学习。因此，在RL中，更适合将值或模型参数视为随机变量而不是固定的未知数，专注于跟踪动态变化，而不是在策略学习过程中实现点收敛。为了实现这些目标，文献中已经对卡尔曼时间差（KTD）框架进行了RL研究，如Geist&Pietquin（2010）、Tripp&和Shashua&Mannor（2020）等参考文献所示。在这些研究中，值或其参数被视为随机变量，重点是策略学习过程的跟踪特性。具体来说，KTD将RL概念化为一个状态空间模型：θt=θt−1+wt，rt=h（xt，θt）+ηt，（1）其中θt∈R p表示时间步长t的参数，维度为p，wt∈R p和ηt∈Rn表示两个独立的多元高斯向量，xt表示在时间步长t收集的一组状态和动作，rt∈R n表示奖励向量，n表示样本数量，h（·）是第2.2节中定义的函数。在状态空间模型的框架内，（1）中的顶部方程称为状态演化方程，而底部方程称为测量方程。在正态性假设下，对于线性测量方程，其中h（x，θ）是θ的线性函数，卡尔曼滤波器（Kalman，1960）能够迭代更新以奖励（rt，rt−1，…，r1）为条件的θt的均值和方差估计，从而能够正确量化与动态代理-环境交互系统相关的不确定性。然而，当h（x，θ）变为非线性时，就需要使用线性化技术。具体而言，Geist&Pietquin（2010）采用无迹卡尔曼滤波器（UKF）（Wan&Van Der Merwe，2000），而Shashua&Mannor（2020）利用扩展卡尔曼滤波器（EKF）Anderson等人（1979）来近似θt的协方差矩阵。不幸的是，对于高维参数空间，UKF和EKF的计算效率都很低，这是使用大规模神经网络近似h（·，·）时的常见情况。这些滤波器需要O（p2）的额外空间来存储协方差矩阵，并需要O（np2）用于每次迭代的矩阵乘法。此外，这些算法中涉及的线性化操作会降低估计的准确性。为了解决KTD遇到的局限性，我们将RL重新表述为以下状态空间模型：

论文链接： https://openreview.net/pdf?id=LZIOBA2oDU

Document