同时存在两类决策点和两类动作,在第一类决策点要从离散状态中选择,每隔一段时间会出现第二类决策点,要从连续动作中做出选择,这种情况应该怎么处理两类动作,怎么设计强化学习算法呢
可以尝试PDQN,PDPG算法,还有其他的一些用于混合动作空间的算法。
ref:Parametrized Deep Q-Network Learning Reinforcement Learning with Discrete-Continuous Hybrid Action Space