DQN算法在最大奖励处收敛的问题

使用DQN进行训练，但是不能再奖励最大值处收敛，是什么原因

duanlvqi 提问性问题尽量描述的全面一些，以便于大家能够了解问题背景，不然没有很深功底很难作答

duanlvqi 因为Q值只是用神经网络近似得到的，而不是实际的。近似的情况有好有差，数据采样充分，质量高，效果就好，反之效果就不好。对Q函数进行Max运算也就不一定能得到最大奖励的动作了。

s a r s' 组成的transition的对应不唯一就容易震荡，之前我也是这样，后来修改了s-a-r的映射关系就好了

Document