PPO的reward如何设置？

PPO中，我的action是有硬约束，有两个思路：（1）actor输出的action均值强行满足条件；（2）当约束不满足时，reward设置成特别差的效果。请问哪一种思路是对的？？

或者说，还有没有别的思路可以处理action有限制的情况？

加mask

MISTCARRYYOU 我看之前的mask的方式一般适用于action空间小的情况，我这个情况是action空间很大，但是对于每个state来说，action可选空间又很小，所以应该怎么操作？

MISTCARRYYOU 我现在想到的是用另外一个分布替换PPO的高斯分布，然后再做一次映射即可。

ppo sample动作，感觉加mask在ppo里和action维度无关

MISTCARRYYOU 是这样的，如果action空间很大，并且对于每个state的mask情况复杂，是不适合用mask，我个人是这样觉得。

[未知] 我说的mask是简单的限制action空间或者通过合理性采样获取标准样本，我再去了解一下action mask的其他方法，或许还有我没有看到的思路。我现在的思路就是通过调整高斯分布，达到mask的目的。

Document