如何应对决策序列比较长的问题 - 深度强化学习实验室(社区)

如何应对决策序列比较长的问题

EnochMHforever

在做调度问题时，遇到了决策序列很长导致算法收敛情况不好的情况。（算法 D3QN，状态空间dim 1200，动作空间dim 100）

对于决策序列很长的强化学习问题，大家往往怎么应对和处理，或者有没有比较好用的方法或者trick

Document