今天介绍的是一篇2004年Sutton在NIPS上发表的文章。
主要的思想是利用context信息(或历史估计)提高对未来的长远预知能力。仍然是基于“guess from guess”(bootstrap)的框架,是TD learning的推广。
原文传送门: Temporal-Difference Networks
特色
这篇文章对经典的RL中的TD learning做了推广。TD learning是使用一个量的旧值更新新值,而TD Networks则把它推广到了更灵活的形式:可以用不同形式的预测值来更新当前预测值。用文章中的话说,TD方法是“learning a guess from a guess”,传统的TD方法两个guess是同一个量,而TD networks把第二个guess推广到更广泛的可能。
这样做的好处是:1)与传统TD方法相比,可以做更多形式的预测,并且可以用固定区间进行预测;2)与MC预测方法相比,更加data-efficient;3)可以预测non-Markov问题的解,通过学习一个预测的state representation。
回顾TD-learning
TD算法基本思想就是用(前一个状态的值和当前状态的值之差)来更新前一个状态的V值或Q值,尽管当前状态的估计值也不准确,用一个不准确的值来更新另一个不准确的值,叫做Bootstrapping。
data:image/s3,"s3://crabby-images/5daa7/5daa7d0268ac428ff12c86e9589cff21f8b40914" alt=""
问题:The learning-to-predict problem
本文关心的问题是学习预测agent和环境之间的交互。
data:image/s3,"s3://crabby-images/3115a/3115abd07cc812fc991ac8e1b0f875ab17dce253" alt=""
Temporal Difference Networks
Definition of prediction
要理解文中说的第二个guess允许更广泛的形式,首先要区分prediction的extensive definition和TD definition。
- Extensive Definition:expressing its desired relationship to measurable data.
state values are extensively defined as an expectation of the discounted sum of future re- wards
- TD definition:expressing its desired relationship to other predictions.
while they are TD defined as the solution to the Bellman equation (a relationship to the expectation of the value of successor states, plus the immediate reward).
二者是相同的prediction,只不过以不同的方式定义。过去的TD relationship总是在相同形式的prediction之间,这篇文章仍然保留使用prediction计算prediction的形式,只不过允许不同形式的prediction。
Question Networks and Answer Networks
TD networks是一系列节点组成的网络,每个节点代表一个预测。
data:image/s3,"s3://crabby-images/7c86a/7c86af28ca1f1ccbb96e82bfc2cdf799a385fcd7" alt=""
有一些节点之间的links代表了state,action和prediction之间的联系,定义了prediction的具体形式。这部分网络我们称为question network,代表了what we seek to predict about the data。比如图1(a)的粗的直线箭头。
还有另一部分链接则代表了计算过程,比如从预测的旧值更新到新值的更新方式等,这个过程提供了问题的回答,称为answer network。比如图1(a)中弯曲的细箭头。
文章中设定question network是提前设定好的,不变的。下面我们看一下TD network的算法过程。
首先是answer network和question network的网络结构定义。