我在做DQN的时候,状态空间是连续,动作空间是离散的,然后我设置的收敛指标是reward,这个reward是及时收益,每次做完一个动作就会有一个reward,然后训练之后发现,每次都是reward立即达到一个很高的水平,后期基本不变,这是为什么呀??我看别人的都有一个上升的过程.......:::
keinccgithub
请查看这篇文章: http://deeprlhub.com/d/93/3
keinccgithub 每次都是reward立即达到一个很高的水平,后期基本不变
一般这种情况就是不收敛,情况有很多种,我最近就遇到了这个问题,正在排查出在哪。。。 可能是code问题,也可能是state-reward对应问题。。。
keinccgithub 你的神经网络的loss值怎么样,我的loss都没有收敛...
实验室官方助手 谢谢!
MISTCARRYYOU 我修改了reward的计算方法,有一个上升的过程了,大概在1500次的时候稳定。 后来我又发现我的ground_truth定义有问题,之前定义的ground_truth应该叫单周期的lower bound,因为训练网络用的是贝尔曼,考虑了长远收益,所以就像上图一样,肯定不会达到ground_truth,所以我准备用另外一个思路来做。