个人愚见:相比于value-based算法,PG省去了中间商V或Q的计算过程(不是很绝对的省去),而是直接从agent本身出发对策略进行优化,将agent的策略直接融入到了神经网络本身,而不是专门去利用神经网络的分类或者回归能力去解决问题,像deep Q-learning那样。这样做我觉得有以下几个好处:
1、一个网络输入是state,输出直接是action,因此在连续动作中直接利用tanh和scale就可以获取连续值,而不用先分点计算离散Q值再选择。
2、网络的交叉熵损失函数就是agent的平均损失梯度得来的,因此收敛性一致。
3、策略随机性高,不需要使用贪婪策略(虽然一些改进将随机性策略这一点改回去了)。
至于缺点,感觉最大的就是有时候没必要用PG,在一些小规模问题中PG效率很低。