我们介绍了无奖励马尔可夫决策过程动力学的前向-后向(FB)表示。它为后验指定的任何奖励提供明确的接近最优的策略。在无监督阶段,我们使用与环境的无报酬交互,通过现成的深度学习方法和时间差(TD)学习来学习两种表示。在测试阶段,根据奖励观察或明确的奖励描述(例如,目标状态)来估计奖励表示。该奖励的最佳策略直接从这些表示中获得,无需规划。我们假设第一阶段可以访问探索方案或重放缓冲区。相应的无监督损失是很好的原则:如果训练是完美的,那么所获得的策略对于任何奖励函数都是可证明的最优的。对于不完全训练,次优与无监督近似误差成正比。FB表示通过预测占用图学习状态和动作之间的长期关系,而不必像基于模型的方法那样合成状态。这是向在任意黑箱随机环境中学习可控智能体迈出的一步。该方法与离散和连续迷宫、基于像素的MsPacman和FetchReach虚拟机器人手臂上的面向目标的RL算法进行了比较。我们还说明了智能体如何能够立即适应面向目标的RL之外的新任务。

我们考虑一种无监督强化学习问题:给定马尔可夫决策过程(MDP)但没有奖励信息,是否有可能学习和存储一个紧凑的对象,对于后面指定的任何奖励函数,该对象以最小的额外计算量为该奖励提供最优策略?从某种意义上说,这样一个对象将以紧凑的形式编码环境中所有可能的规划问题的解决方案。这是在首次以无人监督的方式探索其环境后,向构建完全可控的代理迈出的一步。面向目标的RL方法[ACR+17,标准杆数+18]计算预先指定的一系列奖励的策略(例如达到一组目标状态),但不能实时适应新的奖励,例如目标状态的加权组合或密集奖励。学习世界模型是另一种可能性,但它仍然需要明确规划每一个新的奖励;此外,合成长时间范围内的精确状态轨迹已经证明是困难的[Tal17,KST+18]相反,我们展示了一个对象,它比世界模型更容易学习,并且包含信息,可以在没有规划阶段的情况下,为后验提供的任何奖励恢复接近最优的策略。[BBQ+18]学习所有奖励的最佳策略,这些奖励是用户预先提供的有限数量的特征函数的线性组合。这限制了应用:例如,面向目标的任务需要每个目标状态一个特征,从而在连续空间中使用无限多的特征。我们重用了[BBQ+18]中的策略参数化,但引入了一种基于状态占用预测而非预期特征化的具有更好特性的新表示。我们使用了[BTO21]中关于后继状态学习的理论进展。



