- 已编辑
最近在想一个场景,就是有些状态下,连续动作是没有用的,并不应用到环境中,比如如果是离散动作可以用mask来掩盖掉,那如果是连续动作应该怎么处理吗?有相应的论文吗?
最近在想一个场景,就是有些状态下,连续动作是没有用的,并不应用到环境中,比如如果是离散动作可以用mask来掩盖掉,那如果是连续动作应该怎么处理吗?有相应的论文吗?
你的动作空间事怎么样的?是只有一个连续动作,在一些状态下某些取值没有效的意思么。还是说有多个连续动作同时输出,其中一个动作没有效?
Air-legend 对对对,就是某些状态下连续动作的值不需要。。。
Air-legend 就是有些状态下,agent的某个连续动作不使用,就是环境在那个状态下是不能(不需要)应用该动作
Hardlygo 那样的话就mask掉这个连续动作的梯度就好了 我在ppo里有用到,直接把连续动作的梯度乘以0就行
Air-legend 请问有代码吗,我可以看看学习下吗?
Hardlygo 额,我的项目就是在ratio那里乘以了一个mask,是二级动作做的mask,根据一级动作来选择是否要mask掉梯度。
Air-legend 大佬,请问下那如果是多个连续动作同时输出,这些动作和为1,如何让其中一个或多个动作没有效呢?