采用了 DDPG 算法跑模型,查看 迭代次数-平均收益 曲线,发现有时候跑出来的模型曲线收敛到最优收益,有时候收敛到比较差的收益。代码和超参数设置都一样,请问这种情况正常吗?所谓的sota模型是跑很多次然后选一个表现最好的模型吗?
DRL模型相同超参数,跑两次可能结果不一样,正常吗
采用了 DDPG 算法跑模型,查看 迭代次数-平均收益 曲线,发现有时候跑出来的模型曲线收敛到最优收益,有时候收敛到比较差的收益。代码和超参数设置都一样,请问这种情况正常吗?所谓的sota模型是跑很多次然后选一个表现最好的模型吗?