我在运行DQN的时候出现了以下的结果,一个是奖励往差的地方跑,一个是跑到后面会跳到很差的结果,而且跑好的特别少,求助各位大佬看看
[upl-image-preview url=https://www.deeprlhub.com/assets/files/2025-03-26/1742975886-518647-plot-run-0-graph-2.png
]
比较简单的一个操作是加个L2正则损失试试
突然发现你这个图讲的不明不白。横坐标是episode,纵坐标应该是return才对。400episode也可能太短了。