动作空间与强化学习算法的匹配问题

一般我们在创建动作空间的时候，需要选择动作空间，比如Discrete、Box、MultiDiscrete、MultiBinary、Dict。

但是有时候我们的动作空间只能是离散的，比如打折券发放，只能是几个固定值，这种时候，一般选择的是MultiDiscrete，而MultiDiscrete只能支持PPO和A2C，其他的诸如TD3,SAC等算法无法适配，这种时候应该怎么做呢？

可以考虑使用连续动作空间算法, 然后对输出动作用round()函数取整, 达到动作离散化的效果

Document