DQN奖励往差的跑、跑好了后跳水，求助

我在运行DQN的时候出现了以下的结果，一个是奖励往差的地方跑，一个是跑到后面会跳到很差的结果，而且跑好的特别少，求助各位大佬看看

]

比较简单的一个操作是加个L2正则损失试试

突然发现你这个图讲的不明不白。横坐标是episode，纵坐标应该是return才对。400episode也可能太短了。

Document