
Fast Value Tracking for Deep Reinforcement Learning
强化学习(RL)通过创建与环境交互的代理来解决顺序决策问题。然而,现有的算法通常将这些问题视为静态的,专注于模型参数的点估计以最大化预期回报,忽视了代理-环境交互的随机动态和不确定性量化的关键作用。我们的研究利用卡尔曼滤波范式引入了一种名为Langevinized Kalman Temporal Difference(LKTD)的新型可扩展采样算法,用于深度强化学习。该算法基于随机梯度马尔可夫链蒙特卡罗(SGMCMC),有效地从深度神经网络参数的后验分布中提取样本。在温和条件下,我们证明了LKTD算法生成的后验样本收敛到平稳分布。这种收敛不仅使我们能够量化与值函数和模型参数相关的不确定性,而且使我们能够在整个培训阶段的政策更新期间监控这些不确定性。LKTD算法为更稳健、适应性更强的强化学习方法铺平了道路。
在过去的十年里,强化学习在各种任务中取得了显著的成功,包括机器人技术(Kormushev等人,2013)、视频游戏(Silver等人,2016)、竞价策略(Jin等人,2018)和拼车优化(Xu等人,2018b)。作为一种数学模型,RL通过设计一个与环境交互的代理来解决顺序决策问题,目标是学习一个最优策略,使代理的预期总回报最大化。著名的基于值的算法,包括时间差分(TD)学习(Sutton,1988)、状态-动作-奖励-状态-动作(SARSA)(Sutton&Barto,2018)和Q学习,旨在通过学习状态值(或Q值)来得出最优策略。传统上,这些方法将状态值(或Q值)视为确定性函数,侧重于计算模型参数的点估计,从而忽略了代理环境交互中固有的随机性
在RL的背景下,一个公平的算法应该表现出以下特征:(i)不确定性量化,它解决了代理-环境交互的随机性,从而增强了学习策略的鲁棒性;(ii)动态性,它考虑了代理-环境交互系统的动态性,从而增强了RL技术的实用性;(iii)非线性近似,例如,它采用深度神经网络来近似值函数,从而扩大了算法的适用性;(iv)计算效率,可根据模型维度和训练样本大小进行扩展,促进在线学习。因此,在RL中,更适合将值或模型参数视为随机变量而不是固定的未知数,专注于跟踪动态变化,而不是在策略学习过程中实现点收敛。为了实现这些目标,文献中已经对卡尔曼时间差(KTD)框架进行了RL研究,如Geist&Pietquin(2010)、Tripp&和Shashua&Mannor(2020)等参考文献所示。在这些研究中,值或其参数被视为随机变量,重点是策略学习过程的跟踪特性。具体来说,KTD将RL概念化为一个状态空间模型:θt=θt−1+wt,rt=h(xt,θt)+ηt,(1)其中θt∈R p表示时间步长t的参数,维度为p,wt∈R p和ηt∈Rn表示两个独立的多元高斯向量,xt表示在时间步长t收集的一组状态和动作,rt∈R n表示奖励向量,n表示样本数量,h(·)是第2.2节中定义的函数。在状态空间模型的框架内,(1)中的顶部方程称为状态演化方程,而底部方程称为测量方程。在正态性假设下,对于线性测量方程,其中h(x,θ)是θ的线性函数,卡尔曼滤波器(Kalman,1960)能够迭代更新以奖励(rt,rt−1,…,r1)为条件的θt的均值和方差估计,从而能够正确量化与动态代理-环境交互系统相关的不确定性。然而,当h(x,θ)变为非线性时,就需要使用线性化技术。具体而言,Geist&Pietquin(2010)采用无迹卡尔曼滤波器(UKF)(Wan&Van Der Merwe,2000),而Shashua&Mannor(2020)利用扩展卡尔曼滤波器(EKF)Anderson等人(1979)来近似θt的协方差矩阵。不幸的是,对于高维参数空间,UKF和EKF的计算效率都很低,这是使用大规模神经网络近似h(·,·)时的常见情况。这些滤波器需要O(p2)的额外空间来存储协方差矩阵,并需要O(np2)用于每次迭代的矩阵乘法。此外,这些算法中涉及的线性化操作会降低估计的准确性。为了解决KTD遇到的局限性,我们将RL重新表述为以下状态空间模型:
在RL的背景下,一个公平的算法应该表现出以下特征:(i)不确定性量化,它解决了代理-环境交互的随机性,从而增强了学习策略的鲁棒性;(ii)动态性,它考虑了代理-环境交互系统的动态性,从而增强了RL技术的实用性;(iii)非线性近似,例如,它采用深度神经网络来近似值函数,从而扩大了算法的适用性;(iv)计算效率,可根据模型维度和训练样本大小进行扩展,促进在线学习。因此,在RL中,更适合将值或模型参数视为随机变量而不是固定的未知数,专注于跟踪动态变化,而不是在策略学习过程中实现点收敛。为了实现这些目标,文献中已经对卡尔曼时间差(KTD)框架进行了RL研究,如Geist&Pietquin(2010)、Tripp&和Shashua&Mannor(2020)等参考文献所示。在这些研究中,值或其参数被视为随机变量,重点是策略学习过程的跟踪特性。具体来说,KTD将RL概念化为一个状态空间模型:θt=θt−1+wt,rt=h(xt,θt)+ηt,(1)其中θt∈R p表示时间步长t的参数,维度为p,wt∈R p和ηt∈Rn表示两个独立的多元高斯向量,xt表示在时间步长t收集的一组状态和动作,rt∈R n表示奖励向量,n表示样本数量,h(·)是第2.2节中定义的函数。在状态空间模型的框架内,(1)中的顶部方程称为状态演化方程,而底部方程称为测量方程。在正态性假设下,对于线性测量方程,其中h(x,θ)是θ的线性函数,卡尔曼滤波器(Kalman,1960)能够迭代更新以奖励(rt,rt−1,…,r1)为条件的θt的均值和方差估计,从而能够正确量化与动态代理-环境交互系统相关的不确定性。然而,当h(x,θ)变为非线性时,就需要使用线性化技术。具体而言,Geist&Pietquin(2010)采用无迹卡尔曼滤波器(UKF)(Wan&Van Der Merwe,2000),而Shashua&Mannor(2020)利用扩展卡尔曼滤波器(EKF)Anderson等人(1979)来近似θt的协方差矩阵。不幸的是,对于高维参数空间,UKF和EKF的计算效率都很低,这是使用大规模神经网络近似h(·,·)时的常见情况。这些滤波器需要O(p2)的额外空间来存储协方差矩阵,并需要O(np2)用于每次迭代的矩阵乘法。此外,这些算法中涉及的线性化操作会降低估计的准确性。为了解决KTD遇到的局限性,我们将RL重新表述为以下状态空间模型:



