在强化学习(RL)中,状态表示是处理大型或连续状态空间的关键。 虽然深度学习算法的承诺之一是自动构建针对其试图解决的任务进行良好调整的特征,但这种表示可能不会从深度 RL 代理的端到端训练中出现。 为了缓解这个问题,辅助目标通常被纳入学习过程中,并帮助塑造学习的状态表示。 引导方法是当今进行这些额外预测的首选方法。 然而,尚不清楚这些算法捕获哪些特征以及它们与其他基于辅助任务的方法的特征如何相关。 在本文中,我们解决了这一差距,并提供了通过时间差异学习学习的状态表示的理论特征(Sutton,1988)。 令人惊讶的是,我们发现这种表示与策略评估设置中环境的大多数过渡结构的蒙特卡罗和残差梯度算法学习的特征不同。 我们描述了这些表示在政策评估中的功效,并利用我们的理论分析来设计新的辅助学习规则。 我们通过对经典域(例如四室域(Sutton 等人,1999)和 Mountain Car(Moore,1990))上不同累积函数的学习规则进行实证比较来补充我们的理论结果。

