少样本、严格保证的强化学习的乐观后验抽样

RLer

我们考虑在一个由具有S个状态和A个动作的视界H的偶发、有限、阶段相关的马尔可夫决策过程建模的环境中的强化学习。智能体的表现是通过与环境互动T次后的后悔来衡量的。我们提出了一种用于强化学习的乐观后验采样算法（OPSRL），这是后验采样的一种简单变体，每个状态动作对只需要H、S、a和T中对数的多个后验样本。对于OPSRL，我们保证最高Oe（√ H3SAT）忽略多对数（HSAT）项。关键的新技术成分是一种新的线性形式的尖锐反集中不等式，它可能具有独立的意义。具体来说，我们将Alfers和Dinges[1984]提出的Beta分布基于正态近似的下界推广到Dirichlet分布。我们的界限与顺序的下限相匹配Ω(√ H3SAT），从而回答了Agrawal和Jia针对情节设置提出的公开问题[2017b]。

论文原文： https://arxiv.org/pdf/2209.14414.pdf

Document