从Dirichlet到Rubin:强化学习中一种没有奖励的乐观探索方式

Learner

阅读Pdf： https://arxiv.org/pdf/2205.07704.pdf

Document