强化学习(RL)算法根据通过多年研究手动发现的几种可能规则之一更新智能体的参数。自动从数据中发现更新规则可能会导致更高效的算法,或者更好地适应特定环境的算法。尽管之前有人试图解决这一重大的科学挑战,但发现RL基本概念(如价值函数和时间差学习)的替代方案是否可行仍是一个悬而未决的问题。本文介绍了一种新的元学习方法,该方法通过与一组环境交互来发现一个完整的更新规则,其中包括预测什么(例如值函数)和如何从中学习(例如自举)。该方法的输出是我们称为学习策略梯度(LPG)的RL算法。实证结果表明,我们的方法找到了价值函数概念的替代方案。此外,它还发现了一种自举机制来维护和使用其预测。令人惊讶的是,当仅在玩具环境中训练时,LPG可以有效地推广到复杂的雅达利游戏中,并实现非平凡的性能。这显示了从数据中发现一般RL算法的潜力。




强化学习(RL)有一个明确的目标:最大化预期的累积奖励(或平均奖励),这很简单,但足够普遍,可以捕捉智力的许多方面。尽管RL的目标很简单,但开发有效的算法来优化这一目标通常需要大量的研究工作,从建立理论到实证研究。另一种很有吸引力的方法是从与一组环境交互生成的数据中自动发现RL算法,这可以被表述为元学习问题。最近的工作表明,当给定值函数时,可以元学习策略更新规则,并且生成的更新规则可以推广到类似或看不见的任务(参见表1)。然而,完全从零开始发现RL的基本概念是否可行仍然是一个悬而未决的问题。特别是,RL算法的一个定义方面是它们学习和利用价值函数的能力。发现价值函数等概念需要理解“预测什么”和“如何利用预测”。从数据中发现这一点尤其具有挑战性,因为预测在多次更新过程中仅对策略产生间接影响。我们假设,一种能够发现自身价值函数的方法也可能发现其他有用的概念,从而为RL开辟全新的途径。受上述开放问题的启发,本文朝着发现通用RL算法迈出了一步。我们引入了一个元学习框架,它从与环境分布交互生成的数据中联合发现“代理应该预测什么”和“如何使用预测来改进政策”。我们的架构,学习策略梯度(LPG),不在代理的向量值输出上强制执行任何语义,而是允许更新规则(即元学习器)决定该向量应该预测什么。然后,我们提出了一个元学习框架,以从多个学习代理中发现这种更新规则,每个学习代理都与不同的环境交互。实验结果表明,我们的算法可以发现有用的函数,并有效地使用这些函数来更新代理策略。此外,实证分析表明,所发现的函数收敛于值函数概念的编码,并进一步通过自举形式保持该值函数。我们还评估了发现的RL算法推广到新环境的能力。令人惊讶的是,尽管更新规则仅是从与一组非常小的玩具环境的交互中发现的,但它能够推广到许多复杂的雅达利游戏[3],如图9所示。据我们所知,这是第一次表明有可能发现整个更新规则,并且从玩具域中发现的更新规则可以在具有挑战性的基准上与人类设计的算法相竞争。
学习去学习的早期工作长期以来,学习学习的思想已经通过各种公式进行了讨论,如改进遗传编程[30]、学习神经网络更新规则[4]、学习速率自适应[33]、自权重修正RNN[31]和域不变知识的转移[35]。这些工作表明,不仅可以学习优化固定目标,还可以改进元级优化方法。学习为少镜头任务适应学习在少镜头学习的背景下受到了广泛关注[29,37]。MAML[11,12]允许通过参数更新反向传播来元学习初始参数。RL2[9,38]通过在代理的整个生命周期中展开LSTM[17],将学习本身公式化为RL问题。其他方法包括简单近似[27]、具有Hebbian学习的RNN[23,24]和梯度预处理[13]。所有这些都没有明确区分代理和算法,因此,根据问题的定义,生成的元学习算法特定于单个代理架构。学习学习单个任务在线适应不同的工作语料库侧重于学习在一生中学习单个任务。Xu等人[41]介绍了元梯度RL方法;这使用通过代理更新的反向传播来计算相对于更新的元参数的梯度。该方法已应用于元学习各种形式的算法组件,如折扣因子[41]、内在奖励[44]、辅助任务[36]、返回[39]、辅助策略更新[45]、非策略修正[42]和更新目标[40]。相比之下,我们的工作有一个正交的目标:发现对更广泛的代理和环境有效的通用算法,而不是适应特定的环境。发现强化学习算法有几次尝试元学习RL算法,从早期关于强盗算法的工作[22,21]到好奇算法[1]和RL目标[18,43,6,19](比较见表1)。EPG[18]使用进化策略来寻找策略更新规则。Zheng等人[43]表明,探索的一般知识可以以奖励功能的形式获得。ML3[6]元使用元梯度学习损失函数。然而,先前的工作只能推广到同一领域内的类似任务。最近,MetaGenRL[19]被提议元学习一个域不变的策略更新规则,能够从几个MuJoCo环境推广到其他MuJoCo环境。然而,先前没有任何工作试图发现完整的更新规则;相反,它们都依赖于价值函数,可以说