我的场景是机械臂规划,机械臂存在这关节角范围[-360,360],动作输出为速度v,当关节角处于-360°时,动作v<0属于无效动作
我目前的处理只是进行截断处理,
a = ddpg.choose_action(s)
a = handle_invalid_action(a, env.s.q)
s_, r, done = env.step(a)
回传训练时网络没有进行任何处理,我觉得应该是有问题的,learn的时候选择的动作就和与环境交互时选择的动作差别大
ddpg.learn()
连续动作该如何屏蔽无效动作?