请问,PPO算法动作网络输出动作的均值和方差,如果是多个动作,则输出的是一个均值和多个方差吗?看莫烦老师的代码,两个动作,但是就从正态分布中取样了一个数据,比较迷惑
PPO动作网络输出问题
叶天天 抓住了一名群友
Air-legend 哈哈 战友好
(顺便回答下自己,是输出多个均值和方差)
- 已编辑
可以查看这个知乎回答: PPO强化学习如何实现多维度的动作呢?
问题: PPO的强化学习如何实现多维度的动作呢,比如我的action是5维,是Actor根据state输出一个正态分布采样5个值作为action,还是输出5个均值和方差,从而生成5个分布来采样5个值呢? 还有如果用pytorch实现的话,哪个命令是和tf.distributions.normal效果一样的呢?