我们研究了强化学习智能体的可解释奖励函数的设计,同时保证由该函数诱导的最优策略属于一组目标策略。通过可解释性,我们试图捕捉两个特性:(a)信息性,以使奖励加速智能体的收敛;(b)稀疏性,以便于奖励的可解释性。关键的挑战是,更高的信息性通常需要对许多学习任务进行密集的奖励,而现有的技术不允许人们适当地平衡这两个属性。在本文中,我们从离散优化的角度研究了这个问题,并引入了一个新的框架EXPRD来设计可解释的奖励函数。EXPRD建立在一个信息性标准的基础上,根据从任何给定的开始状态采取的行动,该标准捕获了不同时间范围内目标政策的(次)最优性。我们提供了EXPRD的数学分析,并展示了其与现有奖励设计技术的联系,包括基于潜力的奖励塑造。两个导航任务的实验结果证明了EXPRD在设计可解释的奖励函数方面的有效性。

奖励功能在强化学习(RL)智能体的学习/训练过程中起着核心作用。给定智能体期望执行的“任务”(即期望的学习结果),通常有许多不同的奖励规范,在这些奖励规范下,最优策略对任务具有相同的性能保证。这种选择奖励功能的自由,反过来又引出了奖励设计的基本问题:在为智能体人设计奖励功能时,除了智能体人的最终产出政策外,还应考虑哪些不同的标准?[1–3]. 重要的标准之一是信息性,即奖励应加快智能体人的收敛[1-6]。例如,RL智能体面临的一个主要挑战是培训期间延迟奖励;在最坏的情况下,智能体的收敛速度相对于延迟的时间范围呈指数级减慢[7]。在这种情况下,我们寻求设计一个新的奖励函数,以减少延迟的时间范围,同时保证由设计的函数诱导的任何最优策略在原始奖励函数下也是最优的[3]。基于电位的奖励成形的经典技术(当应用适当的状态电位时)确实允许我们将延迟的时间范围减少到1;参见[3,8]和第2节。对于1,这意味着任何状态的全局最优动作也是短视最优的,从而使主体的学习过程变得微不足道。虽然信息性是一个重要的标准,但在为许多实际应用设计奖励时,它并不是唯一需要考虑的标准。另一个需要考虑的自然标准是稀疏性,它代表了奖励的易解释性。如下面所讨论的,奖励的稀疏性和可解释性很重要,有几种实际设置。第一个激励应用是为学习执行顺序任务的人类学习者设计奖励,例如,在教育应用中,如教育游戏[9]、基于虚拟现实的训练模拟器[10,11]和解决开放式问题(例如,基于块的视觉编程[12])。在这种情况下,任务对新手学习者来说可能具有挑战性,教师智能体可以通过设计与这些任务相关的可解释的奖励来帮助这些学习者。第二个激励应用是当奖励设计用于机器人领域的复杂合成任务时,这些任务涉及逻辑、自动机或子目标方面的奖励规范[13,14]-这些规范在底层奖励功能上诱导了一种稀疏结构。第三个激励应用程序与通过设计易于调试/验证的结构化和稀疏奖励函数来防御RL中的奖励中毒攻击有关(参见[15-19])。除了这些实际设置之外,现实任务中许多自然发生的奖励功能本质上是稀疏的和可解释的,这进一步激发了在自动奖励设计过程中提取这些属性的需求。关键的挑战是,更高的信息性通常需要对许多学习任务进行密集的奖励——例如,上述实现时间范围为1的基于潜力的成形奖励将要求大多数状态与一些实际价值的奖励相关联(参见第2节和第4节)。为此,我们寻求解决的一个重要研究问题是:如何在奖励设计过程中平衡信息量和稀疏性这两个标准,同时保证奖励函数诱导的政策的最优标准?

