奖励延迟场景下有哪些比较合适的RL算法？

SchwarzLin

问题：针对agent在t时刻给出的action a_{t}，环境针对该action的反映可能出现延迟，也就是s_{t+1}并不能直接反映 a_{t}的作用，此时reward也是延迟的，在这样的场景下，有哪些方式能够比较好地解决这个问题？可以是RL算法的角度，也可以是reward function设计的角度。

一个实际的应用场景是RL自动调价，给定一个价格后，市场反馈（销量）往往滞后，假设每小时预测一个价格，销量的反映可能滞后几个小时（如0 ~ 6个小时）。

Document