连续动作如何屏蔽无效动作

我的场景是机械臂规划，机械臂存在这关节角范围[-360,360]，动作输出为速度v，当关节角处于-360°时，动作v<0属于无效动作

 我目前的处理只是进行截断处理，

a = ddpg.choose_action(s)

a = handle_invalid_action(a, env.s.q)

s_, r, done = env.step(a)

回传训练时网络没有进行任何处理，我觉得应该是有问题的，learn的时候选择的动作就和与环境交互时选择的动作差别大

ddpg.learn()

连续动作该如何屏蔽无效动作？

如果是无效动作，就给一个比较低的reward

Document