请问对于actor-critic框架,r_t + \gammaV{t+1}是对V{t}的无偏估计(估计误差的mean=0),那么估计误差的方差是多少?和哪些因素有关系?
重新看了David Silver的公开课PPT,应该是有偏估计。此帖终结
linkangd
附上进一步的知识
Why is the TD target [math]R{t+1} + \gamma V(s{t+1})[/math] a biased sample of the true value function [math]v_{\pi}(s_t)[/math]? - Quora