深度强化学习包括一系列算法,这些算法通过深度神经网络将内部表示(如价值函数或策略)参数化。每个算法都根据定义其语义的目标(如Q学习或策略梯度)优化其参数。在这项工作中,我们提出了一种基于元梯度下降的算法,该算法通过深度神经网络灵活地参数化,仅从与环境的交互体验中发现自己的目标。随着时间的推移,这使智能体人能够学习如何更有效地学习。此外,由于目标是在线发现的,它可以随着时间的推移而变化。我们证明,该算法发现了如何解决RL中的几个重要问题,如自举、非平稳性和非策略学习。在雅达利学习环境中,元梯度算法随着时间的推移进行调整,以更高的效率学习,最终超过了强演员-评论家基线的中位数分数。

监督和非监督学习的最新进展是由从手工制作的专家特征到深度表示的转变所推动的[15];这些通常通过在适当的目标函数上的梯度下降来学习,以调整丰富的参数函数近似器。作为一个领域,强化学习(RL)也在很大程度上涵盖了从手工制作特征到手工制作目标的转变:深度函数逼近已成功地与TD学习[30,34]、Q学习[42,23]、双Q学习[36,37]、n步更新[32,14]、一般值函数[33,18]、分布值函数[7,3]等思想相结合,政策梯度[43,21]和各种非政策行为体批评者[8,10,29]。在RL中,智能体无法访问可区分的性能指标,因此选择正确的智能体尤为重要:事实上,上述每种算法在目标选择上都存在根本性差异,每种算法都是由人类专家知识设计的。这些算法的深度RL版本在本质上非常相似:通过对相应目标函数的梯度下降来更新参数。我们的目标是一种算法,它学习自己的目标,并因此学习自己的深度强化学习算法,只需从与环境交互的经验中学习。遵循深度学习的原理,我们通过富函数逼近器对目标函数进行参数化,并通过元梯度学习[28,1,11,44,47,39,2,20]对其进行更新,即通过对目标函数选择产生的梯度下降更新序列进行梯度下降,从而以最小的初始知识最大化初始外部损失函数(如增强)。重要的是,与最近关于元学习的大多数工作[11,2,20]相反,我们的元梯度算法在单个任务上在线学习,在一个“生命周期”内“训练”。这种元学习的在线方法具有几个优点。首先,在线学习算法可以应用于任何RL环境,不需要相关环境的分布,也不需要在不同环境中重置和重新运行的能力。第二,在线学习演算法可以随着学习的进展调整目标函数,而不是假设全局,静态的“一刀切”目标。我们的假设是,随着时间的推移,在线元梯度学习智能体将以更高的效率学习,从长远来看,这将优于固定的(手工制作的)学习智能体客观的我们在玩具问题中表明,我们的方法可以发现如何解决RL中的重要问题,如自举和非平稳性。我们还将我们的算法应用于在线发现非策略学习目标,并对57款经典雅达利游戏中的每一款进行独立训练。我们的元梯度算法通过一个简单的启发式算法来鼓励一致的预测,在这个基准上,它的表现优于强演员-评论家基线的中位数。


