policy gradient 对于多个连续动作，可以生成多个分布，还是一个多元分布 - 深度强化学习实验室

policy gradient 对于多个连续动作，可以生成多个分布，还是一个多元分布

强化学习学习学习

policy gradient 对于多个连续动作，可以生成多个分布，还是一个多元分布，多个分布计算log_prob可以直接相加吗？

实验室官方助手

强化学习学习学习

请查看知乎这个问题：PPO强化学习如何实现多维度的动作呢？

Document