请问DRL中动作空间是变化（不属于一个大的动作空间，应该无法用mask方法）的该怎么办？

场景：一个查询树对应一个状态，在这个状态下，可以取的动作空间是这棵树的的一些子树，然而到了下一个状态就是另一棵查询树，可以取的动作空间变成这棵树的的一些子树，两个动作空间没有什么联系，也不属于一个大的动作空间。这种情况还能使用DRL算法吗？可以在每次计算Q值时就从当前状态可选的动作里计算吗？

fresheyesccx 建议适当放个图可以方便大家理解，以便解决问题

请问你解决了吗？

具体问题是什么呢，听起来描述很模糊

Document