DRL模型相同超参数，跑两次可能结果不一样，正常吗

Lobster · 2023年6月13日

采用了 DDPG 算法跑模型，查看迭代次数-平均收益曲线，发现有时候跑出来的模型曲线收敛到最优收益，有时候收敛到比较差的收益。代码和超参数设置都一样，请问这种情况正常吗？所谓的sota模型是跑很多次然后选一个表现最好的模型吗？

RLer · 2023年6月13日

Lobster 正常，每次种子不一样，结果都不一样

Lobster · 2023年6月15日

RLer 那论文中都是训练多个，选一个表现最好的拿去跟别的模型比结果嘛？

RLer · 2023年7月10日

选最好的肯定不客观，一般选取多个种子求平均，标准差之类的，多看看TD3,SAC之类的算法，里面都有描述，或者可以看看经典2016年微软出的一篇经典论文，标题： deep reinforcement learning that matters

Lobster · 2023年7月12日

RLer 感谢

RLer · 2023年7月15日

Lobster 客气客气，希望有所帮助