A3C算法多进程并行，进程增多，奖励反而减下的原因有哪些？

NanNan

大佬们请教个问题，我实现A3C算法后，同样的程序，啥都不变，增加进程数量后奖励反而减小，会是什么原因，求指点一下，谢谢了

下面是2个进程的

下面是100进程对应的Loss

Tboy

这个应该在线程数<10的时候不明显，越多越明显，原因就是有的线程的数据虽然学到了，但更新的时候初始状态已经变化特别大了，导致之间的方差比较大
个人建议解决方法就是：
+ 每个trajectory的t步都更新gradient，而不是每个episode结束后
+ 每个worker都的losss都除以线程数
+ 优化以及的horizon

NanNan

Tboy 感谢感谢，我试试

Document