强化学习算法通常被设计为学习一个性能良好的策略,该策略可以重复且自主地完成任务,通常从零开始。然而,在许多现实情况下,目标可能不是学习一个可以重复执行任务的策略,而是简单地在一次尝试中成功地执行一个新任务。例如,想象一个救灾机器人的任务是从倒塌的建筑物中取回物品,在那里它无法得到人类的直接监督。它必须在一次测试时间内取回这个物体,并且必须在处理未知障碍物时取回,尽管它可能会利用灾难发生前对建筑物的了解。我们将这种问题设置正式化,我们称之为单生命强化学习(SLRL),在这种情况下,代理人必须在没有干预的情况下,利用其先前的经验,在与某种形式的新奇事物抗争的同时,在一集内完成一项任务。SLRL提供了一个自然的环境来研究自主适应陌生环境的挑战,我们发现,为标准情景强化学习设计的算法通常很难从这种环境下的分布外状态中恢复。基于这一观察,我们提出了一种算法,Q加权对抗学习(QWALE),该算法采用了一种分布匹配策略,该策略在新情况下利用代理的先前经验作为指导。我们对几个单寿命连续控制问题的实验表明,基于我们的分布匹配公式的方法成功率提高了20-60%,因为它们可以更快地从新状态中恢复。


