最近的理论和实验结果表明,多巴胺系统实现了分布时间差异备份,允许学习状态的长期值的整个分布,而不仅仅是它们的预期值。然而,迄今为止所探索的分配码依赖于一个复杂的插补步骤,该步骤在很大程度上依赖于空间非局部性:为了计算奖励预测误差,单位不仅必须知道自己的状态,还必须知道其他单位的状态。目前尚不清楚这些步骤如何在现实的神经电路中实现。在这里,我们介绍了拉普拉斯码:一种用于分布强化学习的局部时间差分码,它具有代表性的强大和计算简单。该代码将价值分布和预测误差分解为三个独立的维度:奖励幅度(与分配分位数相关)、时间折扣(与未来奖励的拉普拉斯变换相关)和时间范围(与资格跟踪相关)。除了遵循局部学习规则外,该分解还恢复了即时奖励分配的时间演变,指示了未来所有时间的所有可能奖励。这增加了代表能力,并允许在时间上灵活的计算,可以立即调整以适应不断变化的范围或贴现因素。

在传统的强化学习(RL)框架中,代理通过学习和最大化状态的标量值来做出决策,这些标量值量化了将从这些状态中遇到的未来折扣奖励的预期总和[1]。最近,几项研究结果表明,除了预期之外,人类和动物还可以追踪关于未来奖励分配的更丰富信息[2-5]。事实上,最近的机器学习进展表明,除了为决策提供更大的灵活性之外,要求学习整个价值分布会导致表示支持改进的平均性能,因为代理需要分别表示具有相同期望值但不同价值统计的状态[6-8]。这些结果自然提出了这样一个问题,即如何学习这种分布估计并用神经系统表示。最近提出了一种称为预期时间差(TD)学习的分布式RL算法[9],作为一种神经上可行的方法,它扩展了多巴胺活性的传统时间差奖赏预测误差(RPE)理论[10]。期望TD算法学习一组收敛于值分布的期望值的估计量。重要的是,正如我们在下一节中所解释的,Expectile算法是非局部的,这在考虑分布式RL的神经似然实现时是一个关键问题。这里,我们证明了不需要分布TD算法的非局部性来学习值分布。我们表明,执行传统和本地TD备份的独立单元的集合可以恢复价值分布。整体中的单位具有三个维度上的选择性:奖励幅度、时间折扣因子和对过去结果的明确记忆。除了价值分布之外,通过采用逆拉普拉斯算子,可以从我们的代码中恢复即时奖励分布的时间演变。时间演变表明在未来的每个时间步获得不同奖励幅度的概率。该附加信息增加了表征能力,并允许计算期望值和分布值,该值立即适应任务时间范围的变化。最后,我们通过展示我们的代码可以从具有不同时间折扣的后继表示(SR)集合中线性计算,这是最近为海马体提出的模型,来说明我们的代码和预测表示之间的强大联系[11]。


