问题:针对agent在t时刻给出的action a_{t},环境针对该action的反映可能出现延迟,也就是s_{t+1}并不能直接反映 a_{t}的作用,此时reward也是延迟的,在这样的场景下,有哪些方式能够比较好地解决这个问题?可以是RL算法的角度,也可以是reward function设计的角度。
一个实际的应用场景是RL自动调价,给定一个价格后,市场反馈(销量)往往滞后,假设每小时预测一个价格,销量的反映可能滞后几个小时(如0 ~ 6个小时)。