比如打游戏的时候,如果我们有4个技能,那我们的动作空间可以是4维离散动作空间。 但如果某个技能进入CD了,那动作空间在这段时间内就变成3维离散动作空间了 这类问题应该如何处理呢?
或者有这方面的论文推荐吗?
谢谢!
一种思路是在环境step()函数中给出逻辑判断,分析当前动作的合法性, 如果合法才执行,不合法则不执行,并且考虑对不合法动作施加惩罚(负reward)
可以看看rllib的action mask
打星际的那些算法实验里,可以看一看,选择动作时候屏蔽掉一些不合法的动作