Policy gradients通过采样输出动作概率时候,它的网络的反向传播过程是什么样的?特别是在输出层的误差是怎么及计算的? 有朋友指点一下吗,
PG的输出层误差是估计出来的,因为没办法像DNN那样算精确的LOSS,PG理论提供的思路就是用概率估计直接获得网络更新的梯度,我一般理解为直接跳过LOSS直接delta
MISTCARRYYOU 那请问一下,pg它是通过socre function来解决了从分类分布中抽样不可微分的情况吗?
MISTCARRYYOU 因为我看网上好多说从分布中抽样不可微分,但是这里他是是可以反向传播的