最近本人尝试用DQN来解决多智能体巡逻问题,每个agent一个网络,效果还不错,但关于更普通的情况,我有以下疑问:
1、DQN算法里的“For t=1,T”,这里的T是指任务每个Episode的最长时间限制还是agent执行动作的次数呢?除非是每个agent执行任意动作均耗时相同,不然它们的网络单独训练时岂不是都不在同一时间了?多智能体学习算法一般对于这点怎么处理的呢?在状态表示上增加区分吗?
2、由于我的状态表示用到了agent上一次执行动作的位置信息,这样需要考虑使用RNN或者LSTM吗?
3、为了缓解训练时其它agent带来的环境非平稳性,我参考CERT的做法让每个agent从replay buffer随机采样batch训练时保持对应的episode、timestep相同,在agent执行动作仅需1个单位时间时很方便,但如果动过执行耗时超过1时该怎么修改呢?