StarCraft II Unplugged: 大规模离线强化学习数据集

南栖仙策--POLIXIR

星际争霸 II 仍然是当今最具挑战性的强化学习环境之一。与其他流行的基准测试环境不同，星际争霸 II 是部分可观察的、随机的，并且掌握需要长期战略规划和实时低级执行。星际争霸 II 还提供了数百万由人类玩家玩过的游戏，并由暴雪提供。这使得星际争霸 II 成为一个有趣的离线强化学习基准。与其他离线 RL 基准测试不同，数据来自实际的人类玩家，而不是预先训练的代理。使用自然数据集可以更好地模拟现实世界的离线 RL 任务，并对当前的离线 RL 方法提出新的挑战。我们使用离线 RL 方法（例如行为克隆、V-trace Actor Critic 和 MuZero）展示了该基准的结果。

pdf: https://openreview.net/pdf?id=Np8Pumfoty

Document