离线强化学习(仅从记录的数据中获取RL)是在实际场景中部署RL技术的重要途径。但是,现有的用于离线RL的超参数选择方法,通过评估与环境中每个超参数设置相对应的策略来打破离线假设。这种在线执行通常是不可行的,因此破坏了离线RL的主要目标。本论文专注于离线超参数选择,即从给定记录数据的情况下,从使用不同超参数训练的许多策略中选择最佳策略的方法。通过大规模的经验评估,实验结果表明:
- 1)离线RL算法对超参数选择不可靠;
- 2)离线RL算法和估计Q值的方法等因素可能对超参数选择产生重大影响;
- 3)何时我们会谨慎地控制这些因素,从而可以跨超参数选择可靠地对策略进行排名,从而选择与集合中最佳策略接近的策略。
总体而言,结果表明,即使在像素观测,高维动作空间和长视距等具有挑战性的任务中,离线超参数选择也是可以实现的。
通常情况下,执行离线超参数选择时面临的挑战是使根据离线数据计算的统计信息对几种策略进行排名。 我们设想以下工作流将在实践中应用离线超参数选择:
- 使用几种不同的超参数设置训练离线RL策略。
- 对于每个策略,计算标量统计信息,以汇总策略的性能(无需与环境进行交互)。
- 根据摘要统计信息选择前k个最佳策略,以在实际环境中执行。
评估离线超参数选择的指标
- Spearman’s rank correlation:首先根据汇总统计信息和实际值计算不同策略的排名值。 Spearman的等级相关性是两组等级值之间的Pearson相关性。
- Regret@k:首先计算前k个集合,即统计值最高的k个策略。 Regret@k是整个集合中最佳策略的实际值与前k个集合中最佳策略的实际值之差。该度量标准旨在回答以下问题:“如果我们能够在实际环境中运行与k个超参数设置相对应的策略,并以这种方式获得可靠的估计值,那么我们从集合中的最佳值中选出的最佳值将走多远?是否考虑了超参数设置?”。
- Absolute error::统计量\hat{V}(s_{0})与实际值之差的绝对值。这不会直接测量排名质量,但是我们将其包括在这里是因为零绝对误差将对应于完美排名,并且这是OPE文献中的标准度量。