是每次训练前先对抽样得到的批样本归一化后再送到网络训练?还是说第一次训练前对所有的经验池里的所有样本做归一化,该次训练完后每当经验池中新增加一个样本都要重新对经验池里的所有样本归一化?
可以看看这篇文章总结得不错,https://blog.csdn.net/deeprl/article/details/108989429。 按照作者的观点,不需要批归一化,但可以使用归一化,作者说“一边训练一边计算归一化的均值与方差也是可行的”,应该是指你第二个问题两种想法都可以,但每增加一个样本计算一次均值方差,可能计算量会比较大。具体可以看看他们的代码
gingkg 链接404。。。。
xluckyhappy https://zhuanlan.zhihu.com/p/210761985?utm_source=wechat_session