A产生的动作是要作为C的输入吗?
gkw521
请看李宏毅老师Slide的这张图
要看你估计的是什么 估计的是Q就要输入。V就不用输入
RLer 我看理论上是这样,但是代码实现上很多都没有把动作a作为Critic的输入 我自己的模型没有训练好,所以想知道是不是把action加入Critic的输入会有效果