在做调度问题时,遇到了决策序列很长导致算法收敛情况不好的情况。(算法 D3QN,状态空间dim 1200,动作空间dim 100)
对于决策序列很长的强化学习问题,大家往往怎么应对和处理,或者有没有比较好用的方法或者trick