持续学习(CL)——在先前获得的知识基础上持续学习的能力——是长寿命自主强化学习(RL)主体的自然要求。在构建这样的智能体时,需要平衡对立的需求,例如对能力和计算的限制、不灾难性遗忘的能力以及对新任务的积极转移。理解正确的权衡在概念上和计算上都具有挑战性,我们认为这导致社区过度关注灾难性遗忘。针对这些问题,我们主张有必要优先考虑向前转移,并提出“连续世界”,这是一个基准,由在元世界[54]之上构建的现实且有意义的不同机器人任务组成,作为测试平台。在对现有CL方法进行深入的实证评估之后,我们指出了它们的局限性,并强调了RL设置中独特的算法挑战。我们的基准旨在为社区提供一个有意义且计算成本低廉的挑战,从而帮助更好地理解现有和未来解决方案的性能。

变化无处不在。不足为奇的是,由于进化压力,人类可以快速适应并创造性地重复使用以前的经验。相比之下,尽管受到生物启发,但深度学习(DL)模型主要在满足i.i.d.假设的静态领域表现出色,例如在图像处理[28,49,10,40]、语言建模[52,11]或生物应用[47]中。随着系统规模的扩大和在开放式环境中部署,这种假设越来越值得怀疑;例如,想象一个需要适应不断变化的环境和硬件磨损的机器人。持续学习(CL)是一个明确关注此类问题的领域,最近受到了越来越多的关注。该领域的进展可能为深度神经网络提供巨大优势[19],并使社区更接近构建智能机器的长期目标[20]。CL方法的评估具有挑战性。由于不允许并行计算的问题的顺序性,评估往往很昂贵,这使社区倾向于关注玩具任务。这些大多属于监督学习领域,通常依赖于MNIST。在这项工作中,我们扩展了先前关于该主题的讨论[45、16、30、46],并引入了一个新的基准,即连续世界。该基准基于Meta World[54]的现实机器人操作任务,受益于其多样性,但计算成本也很低。此外,我们提供了更短的辅助序列,所有这些都可以实现快速的研究周期。在概念层面上,评估CL算法的一个基本困难来自于对CL解决方案的不同需求。这些目标往往是相互对立的,迫使从业者在其算法设计中明确或隐含地做出与数据相关的权衡。连续世界在任务之间提供了更有意义的关系,接听最近的电话[19]以增加对转发的关注。此外,我们还提供了一系列常用CL方法的广泛评估。它强调,许多方法可以相对较好地处理灾难性遗忘,但牺牲了其他迫切需要,特别是向前转移。这强调了我们对注重向前转移的呼吁,以及需要更多的基准,以便在任务之间建立共同的结构。这项工作的主要贡献是一个CL基准,它将优化前向传输作为中心目标,并表明现有方法在前向传输能力方面难以优于简单基线。我们发布了用于基准测试和7 CL方法的代码2,旨在为社区提供有用的工具,以更好地了解现有和未来解决方案的性能。我们鼓励访问该项目的网站3并参加持续世界挑战赛。


