我们考虑在一个由具有S个状态和A个动作的视界H的偶发、有限、阶段相关的马尔可夫决策过程建模的环境中的强化学习。智能体的表现是通过与环境互动T次后的后悔来衡量的。我们提出了一种用于强化学习的乐观后验采样算法(OPSRL),这是后验采样的一种简单变体,每个状态动作对只需要H、S、a和T中对数的多个后验样本。对于OPSRL,我们保证最高Oe(√ H3SAT)忽略多对数(HSAT)项。关键的新技术成分是一种新的线性形式的尖锐反集中不等式,它可能具有独立的意义。具体来说,我们将Alfers和Dinges[1984]提出的Beta分布基于正态近似的下界推广到Dirichlet分布。我们的界限与顺序的下限相匹配Ω(√ H3SAT),从而回答了Agrawal和Jia针对情节设置提出的公开问题[2017b]。

