场景:一个查询树对应一个状态,在这个状态下,可以取的动作空间是这棵树的的一些子树,然而到了下一个状态就是另一棵查询树,可以取的动作空间变成这棵树的的一些子树,两个动作空间没有什么联系,也不属于一个大的动作空间。这种情况还能使用DRL算法吗?可以在每次计算Q值时就从当前状态可选的动作里计算吗?
fresheyesccx 建议适当放个图可以方便大家理解,以便解决问题
请问你解决了吗?
具体问题是什么呢,听起来描述很模糊