
摘要:尽管近年来深度强化学习(DRL)取得了显著进展,但一个经常被忽视的普遍问题是信号延迟的影响。当代理对环境的感知与其相应的动作之间存在滞后时,就会发生信号延迟。在本文中,我们首先通过扩展标准MDP框架以包含信号延迟来形式化延迟观测马尔可夫决策过程(DOMDP)。接下来,我们阐明了DRL中信号延迟的存在所带来的挑战,表明琐碎的DRL算法和用于部分可观察任务的通用方法在很大程度上受到延迟的影响。最后,我们提出了克服这些挑战的有效策略。我们的方法在具有大延迟的连续机器人控制任务中取得了显著的性能,其结果与非延迟情况下的结果相当。总的来说,我们的工作有助于更深入地理解信号延迟情况下的DRL,并引入了解决相关挑战的新方法。
近年来,深度强化学习(DRL)及其应用得到了快速发展(Sutton&Barto,1998)。DRL的成功不仅体现在视频游戏(Vinyals等人,2019)和模拟机器人环境(Haarnoja等人,2018a)等虚拟任务中,还体现在许多具有挑战性的现实世界任务中,如控制托卡马克(Degrave等人,2022)和用人类反馈调整语言模型(Schulman等人,2017;Brown等人,2020)。然而,在深入的RL研究中,一个经常存在的问题长期以来一直被忽视,那就是信号的延迟,即代理可能不会立即观察到当前的环境状态,或者代理的行为不能立即对环境产生影响。信号延迟在各种实际应用中广泛存在。例如,在自动驾驶汽车导航中(Jafaripournmchahi等人,2022),由于现实世界的限制,如网络延迟或传感器处理时间,可能会出现延迟反馈。在金融领域(Fang等人,2021),由于网络拥塞或数据处理瓶颈,高频交易算法在接收有关市场状况的信息时可能会遇到延迟。在机器人技术中,机器人传感器、执行器和控制系统之间的通信延迟可能会导致响应延迟(Abadía等人,2021)。此外,在远程医疗或远程手术等医疗应用中(Meng等人,2004),从接收患者数据到实际执行所需操作之间可能存在延迟。最后但并非最不重要的一点是,有时即使延迟很短(例如,由于神经网络推理,延迟为1ms),环境可能已经发生了很大变化,例如,在控制托卡马克时(特征时间尺度为0.1ms)(Degrave等人,2022)。这些延迟对基于深度强化学习的解决方案的有效性产生了重大影响,因此有必要进行紧急研究以应对这一挑战。
另一方面,信号延迟也是生物系统中的一个关键问题。例如,人类的神经信号从大脑传播到肌肉(传出延迟)和从传感器传播到大脑(传入延迟)大约需要150毫秒(Gerwig等人,2005)。考虑到尤塞恩·博尔特的移动距离超过10米,钢琴家每秒演奏数十个音符,这种延迟在电机控制中可能很重要(Bastian,2006)。由于DRL被公认为是一种用于模拟控制和行为的生物学上可行的框架(Botvinick等人,2020),解决DRL中的信号延迟问题可以揭示动物和人类的相应神经机制(Stein,2009)。然而,鉴于信号延迟的广泛存在及其重要性,令人惊讶的是,很少有研究试图在DRL中解决这个问题——尽管在控制理论和土匪问题中对延迟反馈进行了广泛的研究,但据我们所知,在深度强化学习中唯一明确触及这个问题的研究来自Chen等人(Chen等人,2021)。然而,他们强烈假设知道奖励函数,这在实践中往往是未知的,并且只讨论固定延迟时间的情况。在更一般的情况下,DRL中的信号延迟问题亟待研究。目前的研究旨在解决具有延迟的深度RL(DRLwD)问题,特别是在连续控制任务中,因为大多数应用都需要连续的动作空间,如机器人、自动驾驶、远程手术和生物运动动作建模。
这项工作的主要贡献总结如下。首先,我们研究了延迟对性能的影响,并通过综合实验提供了证明其显著影响的经验证据。接下来,我们为延迟问题提供了一个数学公式,包括动作和观测延迟,并从理论上得出了设计有效解决方案的见解。然后,基于我们提出的见解,我们研究了一系列缓解或克服关键挑战的想法,并对每个想法的有效性进行了实证评估。最后,我们为行动者-评论家架构提出了简单通用的方法,有效地解决了DRL中信号延迟的影响。总体而言,我们的工作有助于更深入地理解存在信号延迟的DRL,并提出了一种新的模型架构来克服相关的挑战。





