面对不确定性时的乐观原则是许多理论上成功的强化学习算法的基础。在本文中,我们为设计、分析和实现情景强化学习问题中的此类算法提供了一个通用框架。该框架建立在拉格朗日对偶性的基础上,并证明了构建乐观MDP的每个模型乐观算法都具有与值乐观动态规划算法等价的表示。通常,人们认为这两类算法是不同的,模型乐观算法受益于更清晰的概率分析,而价值乐观算法更容易实现,因此更实用。利用本文开发的框架,我们表明,通过提供一类具有计算效率高的动态编程实现和简单的概率分析的算法,可以实现两全其美。除了能够在表格设置中捕获许多现有算法之外,我们的框架还可以在可实现函数近似下解决大规模问题,在这种情况下,它可以对最近提出的一些方法进行简单的基于模型的分析。


强化学习(RL)是不确定性下顺序决策的关键框架[45,46]。在RL问题中,学习代理通过采取一系列行动与反应性环境交互。每一个动作都会给代理人提供一些奖励,但也会将他们带到一个新的状态,从而决定他们未来的奖励。代理人的目标是选择行动,从长远来看最大化他们的总回报。学习问题通常由马尔可夫决策过程(MDP,[40])建模,其中代理不知道奖励或转移概率。处理这种知识的缺乏是强化学习中的一个关键挑战:代理人必须在学习环境的同时最大化他们的回报。一类成功地平衡了这种探索与开发权衡的算法是乐观强化学习算法。在本文中,我们为研究这类算法提供了一个新的框架。乐观算法基于“面对不确定性时的乐观”(OFU)原则。他们通过维持一套统计上合理的世界模型,并选择行动来最大化最佳合理世界的回报。此类算法最初是在多武装匪徒问题的背景下研究的[29,2,14,5,30],并随后启发了许多用于强化学习的算法。仔细研究文献,可以发现将乐观主义融入RL的两种主要方法。首先,通过对MDP的估计引入乐观主义:这些方法通过围绕经验过渡和奖励函数构建置信界限来构建一组似是而非的MDP,并在最佳可行的MDP中选择产生最高总预期回报的政策。我们将这一系列方法称为模型乐观方法。模型乐观方法的例子包括RMAX[13,27,47]和UCRL2[4,24,44]。尽管在概念上很有吸引力,但由于联合优化模型和策略的复杂性,模型乐观方法往往难以实现。将乐观纳入RL的另一种方法是在最优值函数上构造乐观上界,该最优值函数(非正式地)是真实MDP中最优策略的总期望报酬。乐观的政策贪婪地选择行动来最大化乐观的价值。我们将这类方法称为价值乐观方法。此类算法的例子有MBIE-EB[44]、UCB-VI[6]和UBEV[16]。这些算法通过动态编程计算乐观值函数(参见9),使其计算效率高,并与通常基于值函数的经验成功的RL算法兼容。这些方法的一个缺点是,它们的概率分析通常过于复杂,需要复杂的递归论证来保证乐观。虽然这两种方法在表面上看起来可能非常不同,但我们在本文中表明,它们之间实际上有非常强的联系。我们的第一个贡献是表明与这两种方法相关的优化问题表现出很强的对偶性。这意味着,对于每一种模型乐观方法,都存在等价的价值乐观方法。这弥补了概念上简单的模型乐观方法和计算上有效的价值乐观方法之间的差距。这一结果使我们能够开发一个通用框架,用于设计、分析和实现情景强化学习问题中的乐观算法。我们的框架足够广泛,可以捕获表格式MDP的许多现有算法,为此,我们提供了一个简单的分析和计算高效的实现。该框架还可以扩展为包含可实现的线性函数近似,从而对两值乐观算法进行新的基于模型的分析。我们的分析涉及为可能独立感兴趣的因子线性MDP构建新的模型乐观公式。