PDF: https://arxiv.org/pdf/2402.03046.pdf
在许多强化学习 (RL) 论文中,学习曲线是衡量 RL 算法有效性的有用指标。 然而,学习曲线的完整原始数据很少可用。 因此,通常需要从头开始重复实验,这既耗时又容易出错。 我们推出了 Open RL Benchmark,这是一组完全跟踪的 RL 实验,不仅包括情景回报等常用数据,还包括所有特定于算法的数据和系统指标。 Open RL Benchmark 是社区驱动的:任何人都可以下载、使用和贡献数据。 截至撰写本文时,已跟踪超过 25,000 次跑步,累计持续时间超过 8 年。 Open RL Benchmark 涵盖了广泛的 RL 库和参考实现。 我们特别注意确保每个实验都可以精确重现,不仅提供完整的参数,还提供用于生成实验的依赖项的版本。 此外,Open RL Benchmark 还配备了命令行界面 (CLI),可以轻松获取和生成图形来呈现结果。 在本文档中,我们提供了两个案例研究来证明 Open RL Benchmark 在实践中的有用性。 据我们所知,Open RL Benchmark 是同类中的第一个 RL 基准,作者希望它能够改进和促进该领域研究人员的工作。
Open RL Benchmark 提供了丰富的跟踪 RL 实验集合,旨在通过提供多样化的训练数据集来设定新标准。 该举措优先考虑使用现有数据而不是重新运行基线,强调可重复性和透明度。 我们的贡献是:
• 广泛的数据集:提供大量、多样化的跟踪强化学习实验集合。
• 标准化:通过鼓励依赖现有数据建立新规范,减少重新运行基线的需要。
• 综合指标:除了间歇性回报之外,还包括用于特定方法和系统评估的各种跟踪指标。
• 重现性:强调清晰的说明和固定的依赖性,确保轻松进行实验复制。
• 研究资源:作为强化学习研究的宝贵协作资源。
• 促进探索:实现新强化学习方法的可靠探索和评估。