用于分布强化学习的局部时差码

RLer

最近的理论和实验结果表明，多巴胺系统实现了分布时间差异备份，允许学习状态的长期值的整个分布，而不仅仅是它们的预期值。然而，迄今为止所探索的分配码依赖于一个复杂的插补步骤，该步骤在很大程度上依赖于空间非局部性：为了计算奖励预测误差，单位不仅必须知道自己的状态，还必须知道其他单位的状态。目前尚不清楚这些步骤如何在现实的神经电路中实现。在这里，我们介绍了拉普拉斯码：一种用于分布强化学习的局部时间差分码，它具有代表性的强大和计算简单。该代码将价值分布和预测误差分解为三个独立的维度：奖励幅度（与分配分位数相关）、时间折扣（与未来奖励的拉普拉斯变换相关）和时间范围（与资格跟踪相关）。除了遵循局部学习规则外，该分解还恢复了即时奖励分配的时间演变，指示了未来所有时间的所有可能奖励。这增加了代表能力，并允许在时间上灵活的计算，可以立即调整以适应不断变化的范围或贴现因素。

论文pdf： https://papers.nips.cc/paper/2020/hash/9dd16e049becf4d5087c90a83fea403b-Abstract.html

发表在： 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada.

在传统的强化学习（RL）框架中，代理通过学习和最大化状态的标量值来做出决策，这些标量值量化了将从这些状态中遇到的未来折扣奖励的预期总和[1]。最近，几项研究结果表明，除了预期之外，人类和动物还可以追踪关于未来奖励分配的更丰富信息[2-5]。事实上，最近的机器学习进展表明，除了为决策提供更大的灵活性之外，要求学习整个价值分布会导致表示支持改进的平均性能，因为代理需要分别表示具有相同期望值但不同价值统计的状态[6-8]。这些结果自然提出了这样一个问题，即如何学习这种分布估计并用神经系统表示。最近提出了一种称为预期时间差（TD）学习的分布式RL算法[9]，作为一种神经上可行的方法，它扩展了多巴胺活性的传统时间差奖赏预测误差（RPE）理论[10]。期望TD算法学习一组收敛于值分布的期望值的估计量。重要的是，正如我们在下一节中所解释的，Expectile算法是非局部的，这在考虑分布式RL的神经似然实现时是一个关键问题。这里，我们证明了不需要分布TD算法的非局部性来学习值分布。我们表明，执行传统和本地TD备份的独立单元的集合可以恢复价值分布。整体中的单位具有三个维度上的选择性：奖励幅度、时间折扣因子和对过去结果的明确记忆。除了价值分布之外，通过采用逆拉普拉斯算子，可以从我们的代码中恢复即时奖励分布的时间演变。时间演变表明在未来的每个时间步获得不同奖励幅度的概率。该附加信息增加了表征能力，并允许计算期望值和分布值，该值立即适应任务时间范围的变化。最后，我们通过展示我们的代码可以从具有不同时间折扣的后继表示（SR）集合中线性计算，这是最近为海马体提出的模型，来说明我们的代码和预测表示之间的强大联系[11]。

Document