采用了 DDPG 算法跑模型,查看 迭代次数-平均收益 曲线,发现有时候跑出来的模型曲线收敛到最优收益,有时候收敛到比较差的收益。代码和超参数设置都一样,请问这种情况正常吗?所谓的sota模型是跑很多次然后选一个表现最好的模型吗?
Lobster 正常,每次种子不一样,结果都不一样
RLer 那论文中都是训练多个,选一个表现最好的拿去跟别的模型比结果嘛?
Lobster
选最好的肯定不客观,一般选取多个种子求平均,标准差之类的,多看看TD3,SAC之类的算法,里面都有描述,或者可以看看经典2016年微软出的一篇经典论文,标题: deep reinforcement learning that matters
RLer 感谢
Lobster 客气客气,希望有所帮助