元强化学习(Meta-RL)旨在从多个训练任务中学习有效适应看不见的测试任务的能力。尽管取得了成功,但已知现有的元RL算法对任务分布变化敏感。当测试任务分布与训练任务分布不同时,性能可能会显著下降。为了解决这一问题,本文提出了基于模型的对抗元强化学习(AdMRL),其中我们的目标是通过基于模型的方法,在一系列任务中的所有任务中最小化最坏情况下的次优差距,即最优回报和算法在适配后实现的回报之间的差异。我们提出了一个最小-最大目标,并通过在学习固定任务的动力学模型和找到当前模型的对抗性任务之间交替进行优化,即模型所诱导的策略最大程度地次优的任务。假设任务族是参数化的,我们通过隐函数定理推导了关于任务参数的次优梯度的公式,并展示了梯度估计器如何通过共轭梯度法和REINFORCE估计器的新使用有效地实现。我们在几个连续控制基准上评估了我们的方法,并证明了它在所有任务的最坏情况下的性能、分布外任务的泛化能力以及训练和测试时间样本效率方面的效率,优于现有的最先进的元RL算法。


深度强化学习(Deep RL)方法可以成功解决围棋[45]、雅达利游戏[30]、机器人控制[23]等困难任务,但通常需要对与环境的大量交互进行采样。元强化学习和多任务强化学习旨在通过利用任务家族中的共享结构来提高样本效率。例如,模型不可知元学习(MAML)[13]在训练时间内学习跨任务的共享策略初始化,在测试时间内,它可以通过少量样本快速适应新任务。最近的工作PEARL[38]学习训练时间内任务的潜在表征,然后推断测试任务的表征并适应它们。现有的元RL公式和方法在很大程度上是分布式的。假设训练任务和测试任务来自相同的任务分布。因此,现有方法容易出现分布偏移问题,如[27]所示——当测试时间中的任务与训练中的任务不来自同一分布时,性能会显著下降。在本文中,我们转而从非分布的角度来阐述对抗性元RL问题。给定一个参数化的任务族,我们的目标是在测试时间内最小化该族中所有任务的最差次优差距-最优回报与算法在自适应后实现的回报之间的差异。这可以在数学上自然地表述为极大极小问题(或两人游戏),其中最大值在所有任务上,最小值在算法参数上(例如,共享策略初始化或共享动态)。我们的方法是基于模型的。我们在训练时间内学习跨任务的共享动态模型,在测试期间,给定新的奖励函数,我们根据学习到的动态训练策略。基于模型的方法在样本效率方面甚至在标准的单个任务设置中也能显著优于无模型方法[5、8、9、12、17、20、25、33、36、37、55、56],并且特别适用于元RL设置,其中任务的最佳策略非常不同,但底层动态是共享的[22]。我们在任务水平上应用自然对抗训练[26]-我们在参数化动态上最小化次优差距和在参数化任务上最大化之间交替进行。主要的技术挑战是以样本高效的方式优化任务参数。次优差距目标以非平凡的方式取决于任务参数,因为该算法在测试期间的自适应阶段迭代地使用任务参数。通过自适应算法的顺序更新反向传播的天真尝试是耗时的,尤其是因为基于模型的方法中的自适应时间在计算上是昂贵的(尽管采样效率很高)。受最近关于监督学习中学习平衡模型的研究[2]的启发,我们通过隐函数定理推导了任务参数梯度的有效公式。梯度涉及逆Hessian向量积,可以通过共轭梯度和REINFORCE估计器有效计算[58]。