使用DQN进行训练,但是不能再奖励最大值处收敛,是什么原因
duanlvqi 提问性问题尽量描述的全面一些,以便于大家能够了解问题背景,不然没有很深功底很难作答
duanlvqi 因为Q值只是用神经网络近似得到的,而不是实际的。近似的情况有好有差,数据采样充分,质量高,效果就好,反之效果就不好。对Q函数进行Max运算也就不一定能得到最大奖励的动作了。
s a r s' 组成的transition的对应不唯一就容易震荡,之前我也是这样,后来修改了s-a-r的映射关系就好了