PPO动作网络输出问题

叶天天

请问，PPO算法动作网络输出动作的均值和方差，如果是多个动作，则输出的是一个均值和多个方差吗？看莫烦老师的代码，两个动作，但是就从正态分布中取样了一个数据，比较迷惑

Air-legend

叶天天 😆 抓住了一名群友

NanNan

问题： PPO的强化学习如何实现多维度的动作呢，比如我的action是5维，是Actor根据state输出一个正态分布采样5个值作为action，还是输出5个均值和方差，从而生成5个分布来采样5个值呢？还有如果用pytorch实现的话，哪个命令是和tf.distributions.normal效果一样的呢？

知乎原文链接： https://www.zhihu.com/question/417161289

叶天天

Air-legend 哈哈战友好
（顺便回答下自己，是输出多个均值和方差）

叶天天

NanNan 谢谢😁

Document