policy gradient 对于多个连续动作,可以生成多个分布,还是一个多元分布,多个分布计算log_prob可以直接相加吗?
强化学习学习学习
请查看知乎这个问题:PPO强化学习如何实现多维度的动作呢?