一般我们在创建动作空间的时候,需要选择动作空间,比如Discrete、Box、MultiDiscrete、MultiBinary、Dict。
但是有时候我们的动作空间只能是离散的,比如打折券发放,只能是几个固定值,这种时候,一般选择的是MultiDiscrete,而MultiDiscrete只能支持PPO和A2C,其他的诸如TD3,SAC等算法无法适配,这种时候应该怎么做呢?
可以考虑使用连续动作空间算法, 然后对输出动作用round()函数取整, 达到动作离散化的效果