DDPG算法使用问题

在使用ddpg算法进行训练时，同样一组参数多次运行代码跑出来的rewards曲线都不相同，甚至有时候上升趋势逐渐收敛，有时候根本不收敛，还有时候呈下降趋势，这是什么原因呢？:

MrsLing 思考一下初始化seed问题

我也遇到了同样的问题，插眼。

固定住网络初始化的seed和环境的seed

可以试试将torch.backends.cudnn.deterministic设置为true。
然后就是设置随机种子，torch.manual_seed()、torch.cuda.manual_seed()。

Document