请教大家一个基础问题,大家是如何在强化学习中快速调优参数性能?
PonyShan 强化学习的参数众多,且训练数据非IID(独立同分布),模型训练不好收敛,不好复现。我一般是看reward,如果reward稳步提升到一定程度,且epsilon逐步下降,loss也稳步下降。大概就是可以获得一个较满意的模型。 训练时先确认好基线(非RL训练的模型)的reward,训练结果与基线相比,再进行其他手段的调优,如调整学习率,reward-clipping等,调整学习次数等。
panda_rose 感谢分享,我再试试