DDPG离散化

如果对DDPG某一个动作离散化怎么实现？

Hardlygo
有个疑问: 那为什么不直接使用离散化处理的算法?

RLer 因为最近在想有个场景是既有连续动作也有离散动作的。。

既有离散的又有连续动作的分级动作实验我做过PPO和SAC 在我的实验里PPO会更好，在SAC上有一些公式推导上有一些问题没解决
个人认为DDPG就是解决连续动作的如果说强行分割成离散动作可能还不如DQN的效果。

我最近也做离散和连续动作的混合动作的DRL，但是感觉不好混，具体实现很困难。网络的输入或者输出神经元各自不是一个数量级的话，网络可能不好处理。

Document