星际争霸 II 仍然是当今最具挑战性的强化学习环境之一。与其他流行的基准测试环境不同,星际争霸 II 是部分可观察的、随机的,并且掌握需要长期战略规划和实时低级执行。星际争霸 II 还提供了数百万由人类玩家玩过的游戏,并由暴雪提供。这使得星际争霸 II 成为一个有趣的离线强化学习基准。与其他离线 RL 基准测试不同,数据来自实际的人类玩家,而不是预先训练的代理。使用自然数据集可以更好地模拟现实世界的离线 RL 任务,并对当前的离线 RL 方法提出新的挑战。我们使用离线 RL 方法(例如行为克隆、V-trace Actor Critic 和 MuZero)展示了该基准的结果。