请问,PPO算法动作网络输出动作的均值和方差,如果是多个动作,则输出的是一个均值和多个方差吗?看莫烦老师的代码,两个动作,但是就从正态分布中取样了一个数据,比较迷惑
叶天天 😆 抓住了一名群友
叶天天
可以查看这个知乎回答: PPO强化学习如何实现多维度的动作呢?
问题: PPO的强化学习如何实现多维度的动作呢,比如我的action是5维,是Actor根据state输出一个正态分布采样5个值作为action,还是输出5个均值和方差,从而生成5个分布来采样5个值呢? 还有如果用pytorch实现的话,哪个命令是和tf.distributions.normal效果一样的呢?
知乎原文链接: https://www.zhihu.com/question/417161289
Air-legend 哈哈 战友好 (顺便回答下自己,是输出多个均值和方差)
NanNan 谢谢😁