具有工作记忆和情景记忆的强化学习者的概括

RLer

记忆是智力的一个重要方面，在许多深度强化学习模型中起着作用。然而，在理解特定的存储系统何时比其他系统更有帮助以及它们的泛化程度方面进展甚微。该领域还没有看到一种普遍的、一致的、严格的方法来评估智能体人在拒不提供数据方面的表现。在本文中，我们旨在开发一种综合的方法来测试智能体中的不同类型的记忆，并评估智能体在训练中学习到的内容在多大程度上应用于与训练集不同的保持集，我们建议的维度与评估记忆特异性泛化相关。为此，我们首先构建了一组不同的记忆任务1，使我们能够跨多个维度评估测试时间概括。其次，我们在一个结合了多个存储系统的智能体架构上开发并执行多个消融，观察其基线模型，并根据任务组研究其性能。

论文pdf： https://papers.nips.cc/paper/2019/hash/02ed812220b0705fabb868ddbf17ea20-Abstract.html

发表在： 33rd Conference on Neural Information Processing Systems (NeurIPS 2019), Vancouver, Canada.

人类用记忆来推理、想象、计划和学习。记忆是智力的一个基本组成部分，它使来自过去事件和背景的信息能够为当前和未来的决策提供信息。最近，利用记忆系统的代理在包括推理、规划、程序执行和导航等在内的各个研究领域取得了进步（Graves等人，2016；Zambaldi等人，2018；Santoro等人，2018年；Banino等人，2018，Vaswani等人，2017年；Sukhbaatar等人，2015年）。记忆有很多方面，能够接触到不同种类的信息，使智能生物能够将最相关的过去信息带到不同的环境中。在认知心理学和神经科学中，两种常见的记忆类型是工作记忆和情景记忆。工作记忆（Miyake和Shah，1999）是一种容量有限的短期临时存储。相比之下，情节记忆（Tulving和Murray，1985）通常是一个更大的自传体经验数据库（例如回忆上个月吃过的一顿饭），可以在更长的时间范围内存储信息，并将事件序列编成情节（Tulvin，2002）。情景记忆已被证明有助于强化学习代理更快地适应，从而提高数据效率（Blundell等人，2016；Pritzel等人，2017；Hansen等人，2018）。最近，Ritter等人（2018）展示了情景记忆如何用于在情境匪徒问题中为代理提供情境切换能力。变压器（Vaswani等人，2017）可以被视为工作记忆和情景记忆的混合体，已成功应用于许多监督学习问题。在这项工作中，我们探索将这种记忆系统添加到代理中，并提出了一种一致和严格的方法来评估代理是否表现出与动物和人类相似的泛化记忆能力。机器学习中的一个基本原则是在一组数据上进行训练，并在一个看不见的保持集上进行测试，但迄今为止，在强化学习中，仅在训练集上评估代理性能是很常见的，这对于测试泛化来说是次优的（Pineau，2018）。此外，尽管最近在评估强化学习中的泛化方面取得了进展（Cobbe等人，2018），但这些进展并非针对记忆。我们的方法是构建一个列车保持分裂，其中保持集与训练集沿着我们提出的与记忆特别相关的轴不同，即任务的规模和任务环境中使用的精确对象。例如，如果一个特工在训练中学习到去一个放在房间里的苹果，那么作为一般化测试的一部分，改变房间大小或苹果的颜色在理想情况下是不应该放弃的，帮助我们更好地理解不同类型的记忆系统何时最有帮助，并识别认知科学家和心理学家在人类身上观察到的具有记忆能力的主体的记忆结构。除了这些任务之外，我们还开发了一个基于记忆的基准代理，即记忆回忆代理（MRA），它将以前开发的模拟工作记忆和情景记忆的系统结合在一起。这种对工作记忆建模的控制器、外部情景记忆和通过辅助无监督损失和时间反向传播（可以在多个时间步长上“跳跃”）鼓励长期代表性信用分配的架构的组合，在整个套件中获得了比基线更好的性能。特别是，情景记忆和学习良好的表征都被证明是至关重要的，并且在某些情况下是协同作用的。

Document