一般经验是,off-policy算法(DQN, DDPG, TD3, SAC)是不需要使用重要性采样的,他们默然都可以使用experience replay、double network的技巧,而且他们是确定性策略也无法使用重要性采样。
但是从Retrace(lambda)算法和最近的offline算法也能发现,off-policy算法不能完全使用完全off-poliyness的样本,过老的样本对策略提升是无益的。
问题来了:off-policy使用重要性采样对算法是否有效果?过老样本的影响如何去分析?