DQN算法中关于动作的不等式约束用mask屏蔽，如何操作

请问我采用DQN算法，对于动作约束，我看到有用mask屏蔽，请问是直接在输出价值函数层加上这个吗，还需要在目标网络上面改一下梯度值吗，我现在是分别在eval网络和target网络加一个负值很大的值，但是这样reward还是没有很好的一个收敛

Document