我有一个实际的问题: 对于同样的环境env,我用精确DP算法【比如Value Iteration或Policy iteration】得到的最优值Value(DP),然后使用DQN训练稳定后,得到的值Value(DQN)。 为什么Value(DQN)>Value(DP)?此问题是最大化问题,应该DQN得到的结果小于精确算法的最优值啊...........
有两个原因。第一,自举导致偏差的传播;第二,最大化导致TD目标的高估。针对此问题,你可以看一下DDQN。
Eric 是的,昨晚我用了一下DDQN,能够解决这个问题了,DDQN得到的最优值基本稳定在精确算法最优值的95%。