大佬们请教个问题,我实现A3C算法后,同样的程序,啥都不变,增加进程数量后奖励反而减小,会是什么原因,求指点一下,谢谢了
下面是2个进程的
下面是100进程对应的Loss
NanNan
这个应该在线程数<10的时候不明显,越多越明显,原因就是有的线程的数据虽然学到了,但更新的时候初始状态已经变化特别大了,导致之间的方差比较大 个人建议解决方法就是: + 每个trajectory的t步都更新gradient,而不是每个episode结束后 + 每个worker都的losss都除以线程数 + 优化以及的horizon
Tboy 感谢感谢,我试试