基于值的强化学习算法reward（滑动平均后）波动很厉害，一般是什么原因呐？

问题：波动厉害（曲线方差大），这个是DRL很常见也很正常的状态，因为不像DL那么有监督学习，策略具有不可控的性质，即使收敛后也会因为不确定的state产生不一样的trajectory

我碰到的类似情况是因为环境随机性较大，每个epoch之间环境差异较大。

Document