为什么Value(DQN)>Value(DP)？

keinccgithub

我有一个实际的问题：
对于同样的环境env，我用精确DP算法【比如Value Iteration或Policy iteration】得到的最优值Value(DP)，然后使用DQN训练稳定后，得到的值Value(DQN)。
为什么Value(DQN)>Value(DP)？此问题是最大化问题，应该DQN得到的结果小于精确算法的最优值啊...........

Eric

有两个原因。第一，自举导致偏差的传播；第二，最大化导致TD目标的高估。针对此问题，你可以看一下DDQN。

keinccgithub

Eric 是的，昨晚我用了一下DDQN，能够解决这个问题了，DDQN得到的最优值基本稳定在精确算法最优值的95%。

Document