MC和TD 都可以用来进行价值估计。MC无偏,TD含偏。
- MC 直接在经验数据中估计价值函数,不做任何假设,因此无偏。
- TD 假设了状态价值函数是时间连续的,因此对于一些非平稳(non-stationary 参考)的数据不能很好地估计。
MC 的优点:无偏(不做任何假设)。
MC的缺点:需要大量采样经验数据,1. 经验数据较少时方差会很大 2. 不可采样的环境无法使用
- 经验数据包含一些列状态和奖励
- 价值估计就是对经验回报的平均。
因此,经验数据少量时,MC方差相对 TD 较大。
相对的,
TD优点:1. 能够在经验不足的情况下做较好的估计 2. 适用于不可采样的环境。
TD缺点:有偏,并且对于环境假设较多
- TD有偏,会偏向于那些经常被访问到的状态
- TD 假设了环境是马尔可夫的,并且还假设了状态转移概率是确定的
- TD 面对非平稳环境(non-stationary),估计的状态价值可能不稳定
另外,TD算法应用(如训练DQN 网络)中很容易出现非均匀高估问题。