在使用ddpg算法进行训练时,同样一组参数多次运行代码跑出来的rewards曲线都不相同,甚至有时候上升趋势逐渐收敛,有时候根本不收敛,还有时候呈下降趋势,这是什么原因呢?:
MrsLing 思考一下初始化seed问题
我也遇到了同样的问题,插眼。
固定住网络初始化的seed和环境的seed
可以试试将torch.backends.cudnn.deterministic设置为true。 然后就是设置随机种子,torch.manual_seed()、torch.cuda.manual_seed()。