时间信息对于使用强化学习(RL)学习有效策略至关重要。然而,当前最先进的RL算法要么假设这种信息是作为状态空间的一部分给出的,要么在从像素学习时,使用帧叠加的简单启发式来隐式捕获图像观察中存在的时间信息。这种启发式方法与视频分类体系结构中的当前范例形成了对比,后者通过诸如光流和双流体系结构等方法对时间信息进行显式编码,以实现最先进的性能。受领先的视频分类体系结构的启发,我们引入了强化学习的潜在流(Flare),这是一种RL网络体系结构,通过潜在向量差异对时间信息进行显式编码。我们表明,Flare在基于状态的RL中恢复了最佳性能,而无需显式访问状态速度,仅使用位置状态信息。Flare是DeepMind Control套件中最具样本效率的无模型像素RL算法,在5项挑战性控制任务的500k和1M步长基准上进行评估,与Rainbow DQN一起使用时,在8项挑战性游戏的100M时间步长基准下,表现优于Atari游戏的竞争性基准。

强化学习(RL)[41]有望使人工智能体能够在不确定和非结构化环境中解决各种任务。RL与深度神经网络的最新发展导致了自主决策的巨大进步。值得注意的例子包括经典桌游[36,37]、视频游戏[29,6,45]和连续控制[34,28]。对于在RL过程中提取高质量特征,如辅助损失[20,27,35]或数据增强[25,26],已有大量研究。然而,RL表示学习中的另一个重要组成部分在很大程度上被忽视了:一个更有效的架构来结合时间特征。当紧凑的状态表示(如校准的感官输入)不可用时,这在像家庭这样的非结构化现实世界设置中变得尤为重要。基于这种理解,我们探索了架构改进,以更好地利用时间特征来解决像素的高效深度RL问题。


