请问,PPO算法动作网络输出动作的均值和方差,如果是多个动作,则输出的是一个均值和多个方差吗?看莫烦老师的代码,两个动作,但是就从正态分布中取样了一个数据,比较迷惑

    叶天天

    可以查看这个知乎回答: PPO强化学习如何实现多维度的动作呢?

    问题: PPO的强化学习如何实现多维度的动作呢,比如我的action是5维,是Actor根据state输出一个正态分布采样5个值作为action,还是输出5个均值和方差,从而生成5个分布来采样5个值呢? 还有如果用pytorch实现的话,哪个命令是和tf.distributions.normal效果一样的呢?





      说点什么吧...
      Document