基于无奖励（Reward-free）模型的线性函数逼近强化学习

RL-Theory

我们研究了情景马尔可夫决策过程（MDP）的基于模型的线性函数近似无报酬强化学习。在此设置中，智能体分两个阶段工作。在探索阶段，智能体人与环境相互作用，在没有报酬的情况下收集样本。在规划阶段，智能体人被赋予特定的奖励功能，并使用从勘探阶段收集的样本来学习好的政策。在线性混合MDP假设下，我们提出了一种新的可证明有效算法，称为UCRL-RFE，其中MDP的转移概率核可以通过定义在状态、动作和下一状态三元组上的特定特征映射上的线性函数来参数化。我们证明，为了获得任意奖励函数的ϵ最优策略，UCRL-RFE需要最多采样~O（H5d2 \1013− 2）勘探阶段的事件。这里，H是插曲的长度，d是特征映射的维度。我们还提出了使用伯恩斯坦型奖金的UCRL-RFE的变体，并表明它最多需要采样~O（H4d（H+d）ϵ− 2）以实现ϵ最优策略。通过构造一类特殊的线性混合MDP，我们还证明了对于任何无报酬算法，它至少需要采样~Ω（H2dϵ− 2）集以获得ϵ最优策略。根据对ϵ的依赖性和对d的依赖性，如果H，我们的上界与下界匹配≥ d

论文pdf: https://papers.nips.cc/paper/2021/hash/0cb929eae7a499e50248a3a78f7acfc7-Abstract.html

论文发表在： 35th Conference on Neural Information Processing Systems (NeurIPS 2021).

在强化学习（RL）中，主体顺序地与环境交互并从中获得奖励。在许多现实世界的RL问题中，奖励功能是手动设计的，以鼓励代理人的期望行为。因此，工程师必须一次一次地改变奖励功能，并训练代理检查它是否达到了预期的行为。在这种情况下，RL算法需要用不同的奖励函数重复执行，因此样本效率低下甚至难以处理。为了应对这一挑战，Jin等人[9]提出了一种新的强化学习范式，称为无奖励探索（RFE），该范式在不使用任何奖励函数的情况下探索环境。详细地说，无报酬RL算法由两个阶段组成。第一个阶段称为探索阶段，算法在不接收奖励信号的情况下探索环境。第二阶段称为规划阶段，在该阶段，算法被赋予特定的奖励功能，并使用第一阶段收集的数据来学习策略。他们已经表明，这种探索范式可以在规划阶段学习一个接近最优的策略，在探索阶段收集多项式集数后，给出任何奖励函数。后续工作[12，14，28]提出了改进的算法，以实现更好或接近最佳的样本复杂度。上述所有工作都集中在表格马尔可夫决策过程（MDP）上，其中状态和动作的数量是有限的。在实践中，状态和动作的数量可能很大，甚至是无限的，因此为了计算的可处理性和泛化，需要函数近似。然而，即使是在最简单的线性函数近似下，对于无报酬探索的函数近似的理解仍然没有得到充分的探索，只有两项值得注意的相关工作[18，27]。具体而言，Wang等人[18]研究了线性MDP[21，10]，其中转移概率和奖励函数都允许线性表示，并提出了一种无奖励RL算法，其中Oe（d 3H6ϵ−2）样本复杂度，其中d是线性表示的维数，H是规划范围，ϵ是所需的精度。他们还证明，如果最优状态动作函数是线性的，那么无报酬探索需要在规划范围H中的指数数量的事件来学习ϵ最优策略。Zanette等人[27]考虑了一类稍大的具有低固有Bellman误差的MDP[26]，并提出了一种具有Oe（d 3H5ϵ−2）样本复杂性。然而，这两项工作都假设奖励函数是一些特征映射上的线性函数。此外，[18]中证明的下界适用于一类非常大的MDP，其中最优状态作用函数是线性的，因此它过于保守，无法告诉线性MDP或相关模型的无报酬探索的信息理论极限。

Document