RL中如何处理变化的动作空间？

比如打游戏的时候，如果我们有4个技能，那我们的动作空间可以是4维离散动作空间。
但如果某个技能进入CD了，那动作空间在这段时间内就变成3维离散动作空间了
这类问题应该如何处理呢？

或者有这方面的论文推荐吗？

谢谢！

一种思路是在环境step()函数中给出逻辑判断,分析当前动作的合法性,
如果合法才执行,不合法则不执行,并且考虑对不合法动作施加惩罚(负reward)

可以看看rllib的action mask

打星际的那些算法实验里，可以看一看，选择动作时候屏蔽掉一些不合法的动作

Document