如果对DDPG某一个动作离散化怎么实现?
Hardlygo 有个疑问: 那为什么不直接使用离散化处理的算法?
RLer 因为最近在想有个场景是既有连续动作也有离散动作的。。
既有离散的又有连续动作的分级动作实验 我做过PPO和SAC 在我的实验里PPO会更好,在SAC上有一些公式推导上有一些问题没解决 个人认为DDPG就是解决连续动作的 如果说强行分割成离散动作可能还不如DQN的效果。
我最近也做离散和连续动作的混合动作的DRL,但是感觉不好混,具体实现很困难。网络的输入或者输出神经元各自不是一个数量级的话,网络可能不好处理。