引导是强化学习(RL)的核心机制。大多数算法基于时间差异,用当前对过渡状态的估计值来替换过渡状态的真实值。然而,另一个估计可以用来引导RL:当前的政策。我们的核心贡献在于一个非常简单的想法:将缩放日志策略添加到即时奖励中。我们表明,以这种方式稍微修改深度Q网络(DQN)可以提供一个与Atari游戏上的分布式方法相竞争的智能体,而不需要使用分布式RL、n步返回或优先重放。为了演示这个想法的多功能性,我们还将其与隐式分位数网络(IQN)一起使用。生成的智能体在Atari上的表现优于Rainbow,安装了一个新的最新状态,对原始算法的修改很少。为了补充这项实证研究,我们对幕后发生的事情提供了强有力的理论见解——隐式Kullback-Leibler正则化和行动差距的增加。

大多数强化学习(RL)算法在某些方面利用了时差(TD)学习[29]。这是一种众所周知的自举机制,包括将过渡状态的未知真实值替换为其当前估计值,并将其用作学习目标。然而,代理在学习时计算另一个估计值,这可以用于引导RL:他们的当前策略。事实上,它反映了代理对下一步应该执行哪些操作以及哪些操作是好的的预感。基于这一观察,我们的核心贡献在于一个非常简单的想法:当使用任何TD方案时,优化代理的缩放日志策略所增加的即时回报。我们立即坚持认为,这与最大熵RL[36]不同,最大熵RL将缩放的日志策略减去所有奖励,并旨在最大化结果策略的预期收益和预期熵。我们将这种一般方法称为“蒙乔森强化学习”(M-RL),参考了Raspe[24]的《蒙乔森男爵的惊奇历险记》(The Surprising Adventures of Baron Munchausen)[24]中的一段著名段落,其中男爵通过拉扯自己的头发将自己从沼泽中拉出来。为了证明这种想法的普遍性和强度,我们将其引入最流行的RL代理:开创性的深度Q网络(DQN)[23]。然而,DQN不计算随机策略,这阻止了使用日志策略。因此,我们首先将DQN直接推广到最大熵RL[36,17],然后通过将缩放的日志策略添加到即时奖励来修改最终的TD更新。由此产生的算法被称为Munchausen DQN(M-DQN),实际上是对DQN的轻微修改。然而,它有很强的实证表现。在Arcade Learning Environment(ALE)[6]上,它不仅大大超过了原始的DQN,而且还超过了第一个基于分布式RL(distRL)的代理C51[8]。据我们所知,M-DQN是第一个不使用distRL的代理,其性能优于distRL-agent1。单代理算法的当前技术状态被认为是Rainbow[18],它将C51与DQN的其他增强相结合,并且不依赖大规模分布式计算(与R2D2[19]、SEED[12]或Agent57[4]不同)。为了证明M-RL思想的多功能性,我们使用相同的方法来修改隐式分位数网络(IQN)[11],这是一种最新的distRL代理。由此产生的Munchausen IQN(M-IQN)超越了Rainbow,安装了一种新的技术状态。为了支持这些实证结果,我们提供了关于引擎盖下发生的事情的强大理论见解。我们在抽象的动态规划方案下重写M-DQN,并表明它在连续策略之间隐式地执行Kullback-Leibler(KL)正则化。M-RL不是第一种利用KL正则化的方法[27,2],但我们表明,因为这种正则化是隐式的,所以它具有更强的理论保证。由此,我们将M-RL与保守值迭代(CVI)[20]和动态策略编程(DPP)[3]联系起来,这些都是深度RL实现中没有引入的。我们还与优势学习(AL)[5,7]建立了联系,并研究了M-RL对行动差距的影响[13]。虽然M-RL不是第一个诱导作用间隙增加的方案[7],但它是第一个允许量化这种增加的方案。

