PPO 用 GAE 好还是用 TD Lambda 直接减V 算 advantage好？

hijkzzz

看起来TD Lambda 直接减V == gae
为什么PPO 要用 GAE？GAE的实际优势是什么？

Wongziseoi

好处是选优势函数具有几乎最小的方差

（来自GAE原文，选形式4或者6）
GAE原文说各种策略梯度的估计方差比较得看这篇：
Greensmith, Evan, Bartlett, Peter L, and Baxter, Jonathan. Variance reduction techniques for gradient estimates in reinforcement learning. The Journal of Machine Learning Research, 5:1471–1530, 2004.

Document