PPO中,我的action是有硬约束,有两个思路:(1)actor输出的action均值强行满足条件;(2)当约束不满足时,reward设置成特别差的效果。请问哪一种思路是对的??
或者说,还有没有别的思路可以处理action有限制的情况?
加mask
MISTCARRYYOU 我看之前的mask的方式一般适用于action空间小的情况,我这个情况是action空间很大,但是对于每个state来说,action可选空间又很小,所以应该怎么操作?
MISTCARRYYOU 我现在想到的是用另外一个分布替换PPO的高斯分布,然后再做一次映射即可。
ppo sample动作,感觉加mask在ppo里和action维度无关
MISTCARRYYOU 是这样的,如果action空间很大,并且对于每个state的mask情况复杂,是不适合用mask,我个人是这样觉得。
[未知] 我说的mask是简单的限制action空间或者通过合理性采样获取标准样本,我再去了解一下action mask的其他方法,或许还有我没有看到的思路。我现在的思路就是通过调整高斯分布,达到mask的目的。