离线强化学习(RL)仅依赖于静态数据集,而不需要与环境进行额外的交互,它为学习安全且有前途的控制策略提供了一种极具吸引力的替代方案。大多数现有的离线RL方法没有考虑相对数据质量,只是粗略地限制了学习策略和行为策略之间的分布差距。此外,这些算法无法以更细粒度的方式自适应地控制保守级别,如对每个状态-动作对,导致性能下降,尤其是在高度多样化的数据集上。在本文中,我们提出了一种自适应保守Q学习(ACQL)框架,该框架能够更灵活地控制离线RL的Q函数的保守水平。具体而言,我们提出了两个自适应权重函数,以确定收集和分布外数据的Q值。然后我们讨论了学习的Q函数的保守水平变化的不同条件,并定义了关于数据质量和相似性的单调性。在理论分析的激励下,我们提出了一种新的ACQL框架算法,使用神经网络作为自适应权重函数。为了学习适当的自适应权重函数,我们设计了替代损失,包括调整保守水平的条件和对比损失,以保持自适应权重函数的单调性。我们在常用的D4RL基准上评估ACQL,并进行广泛的消融研究,以说明与现有离线DRL基准相比的有效性和最先进的性能。
在深度学习的帮助下,强化学习(RL)在许多以前难以解决的问题上取得了显著的成果,例如玩电子游戏(Silver等人,2016)、控制机器人(Kalashnikov等人,2018;Akkaya等人,2019)和驾驶自动驾驶汽车(Yu等人,2020a;Zhao等人,2022)。然而,代理必须与环境交互的前提条件使得学习过程对于许多真实世界场景来说既昂贵又不安全。最近,离线RL(Lange等人,2012年;Prudencio等人,2022年)被提出作为放宽这一要求的一个有希望的替代方案。在离线RL中,代理直接从给定的静态数据集学习控制策略,该数据集先前由未知行为策略收集。离线RL使代理能够在不与环境进行额外交互的情况下实现相当甚至更好的性能。不幸的是,从在线RL中剥离交互,离线RL非常具有挑战性,因为行为策略和学习策略之间的分布变化。这通常会导致分布外(OOD)行动的价值被高估(Kumar等人,2019;Levine等人,2020),从而误导政策选择这些错误估计的行动。为了缓解分布转移问题,最近的方法(Kumar等人,2019;Jaques等人,201年;Wu等人,2012019;Siegel等人,2020)提出以不同的方式将学习到的策略约束到行为策略,例如限制行动空间(Fujimoto et al.,2019)、使用KL散度(Wu等人2019)和使用最大平均差异(MMD)(Kumar et al.2019)。除了直接约束政策外,其他方法(Kumar等人,2020;Yu等人,2021a;b;Ma等人,2021)选择学习保守Q函数来隐含约束政策,从而缓解Q函数的高估问题。然而,大多数以前的方法平等地优化所有过渡样本,而不是选择性地调整,这可能是过度保守的,特别是对于那些具有高数据多样性的非专家数据集。如图1所示,更保守(具有更大的α)的CQL(Kumar等人,2020)代理在专家数据集上获得更高的回报,同时在随机数据集上遭受性能下降,这表明对于高质量数据,更高的保守水平效果更好,反之亦然。它清楚地表明了保守水平对最终结果的重要性。因此,对不同的过渡样本使用自适应权重来控制保守水平更为合适,例如对好的行为提高Q值,对坏的行为降低Q值