离线强化学习承诺从以前收集的静态数据集中学习有效的策略,而无需探索。然而,当从分布外(OOD)动作或状态引导时,现有的基于Q-学习和演员-评论家的非策略RL算法会失败。我们假设,现有方法中的一个关键缺失成分是对离线环境中的不确定性的适当处理。我们提出了不确定性加权行为批评(UWAC)算法,该算法检测OOD状态动作对,并相应地降低它们在训练目标中的贡献。在实现方面,我们采用了一种实用有效的基于丢包的不确定性估计方法,该方法比现有的RL算法引入了很少的开销。经验上,我们观察到UWAC在训练期间显著提高了模型稳定性。此外,UWAC在各种竞争性任务中执行现有的离线RL方法,并通过从人类专家收集的稀疏演示,在数据集上实现了超过最先进基线的显著性能提升。


近年来,深度强化学习(RL)的兴趣激增。它在模拟任务中取得了显著的成功(Silver等人,2017;Schulman等人,2017年;Haarnoja等人,2018年),其中数据收集成本较低。然而,RL的缺点之一是难以从先前的经验中学习。因此,由于主动数据收集的高成本,RL在非结构化现实任务中的应用仍处于初级阶段。因此,当大规模在线RL不可行时,充分利用以前收集的数据集至关重要。离线批量RL算法为利用先前经验提供了一个有希望的方向(Lange等人,2012)。然而,大多数先前的非策略RL算法(Haarnoja等人,2018;Munos等人,2016;Kalashnikov等人,2018年;Espeholt等人,2018)在离线数据集上失败,甚至在专家演示上也失败(Fu等人,2020)。对训练数据分布的敏感性是实际离线RL算法中众所周知的问题(Fujimoto et al.,2019;Kumar等人,2019年;2020年;Peng等人,201年;Yu等人,2020年)。该问题的很大一部分归因于训练集分布中未涵盖的动作或状态。由于分布外(OOD)行为或状态的价值估计可能是任意的,OOD价值或奖励估计可能会产生破坏性的估计错误,这种错误会通过Bellman损失传播并破坏训练的稳定性。先前的尝试试图通过施加强约束或惩罚来避免OOD行为或状态,这些约束或惩罚迫使演员分布保持在训练数据范围内(Kumar等人,2019;2020;Fujimoto等人,2018;Laroche等人,201)。虽然这些方法在一定程度上取得了实验成功,但它们却遭受了Q函数泛化能力的损失。例如,未出现在训练集中的状态-动作对仍然可以位于训练集分布内,但使用强惩罚训练的策略将避免未看到的状态,而不管Q函数是否能够产生状态-动作值的准确估计。因此,基于惩罚的强解决方案通常会促进悲观和次优政策。在极端情况下,例如,在具有人类演示的某些基准测试环境中,性能最佳的离线算法只能实现与随机代理相同的性能(Fu等人,2020),这表明需要鲁棒的离线RL算法。在本文中,我们假设鲁棒离线RL算法的一个关键方面是不确定性的正确估计和使用。一方面,人们应该能够可靠地将不确定性得分分配给任何状态-动作对;另一方面,应该有一种机制,利用估计的不确定性来防止模型从导致高不确定性分数的数据点学习。第一个问题与OOD样本检测密切相关,这在贝叶斯深度学习社区中得到了广泛研究。(Gal&Ghahramani,2016a;Gal,2016;Osawa等人,2019),通常通过模型的不确定性来衡量。我们采用了基于辍学的方法(Gal&Ghahramani,2016a),因为其简单且经验有效。对于第二个问题,我们对基于演员-评论家的算法中的Bellman更新进行了直观的修改。然后,我们提出了不确定性加权行为批评(UWAC),它简单地对具有高度不确定性的目标状态和动作对的贡献进行了加权。通过这样做,我们可以防止Q函数从远离训练数据分布(高度不确定性)的过于乐观的目标中学习。在经验上,我们首先验证了丢失不确定性估计在检测OOD样本时的有效性。我们表明,不确定性估计在简单环境中具有直观意义。通过基于不确定性的下加权方案,我们的方法显著提高了所选基线的训练稳定性(Kumar等人,2019),并在离线RL的各种标准基准测试任务中实现了最先进的性能。总的来说,我们的贡献可以总结如下:1)我们提出了一种简单有效的技术(UWAC)来对抗OOD样本的影响,而不需要额外的损失项或模型。2) 我们通过实验证明了RL的丢失不确定性估计的有效性。3) UWAC提供了一种稳定离线RL的新方法。4) UWAC在常见的离线RL基准上实现了SOTA性能,并在狭义的人体演示中获得了显著的性能增益。
