【强化学习】如何证明q learning的收敛性与policy gradient的收敛性？

NanNan

各位大佬，大家知道在强化学习中，如何证明q learning的收敛性与policy gradient的收敛性？

Richard

1. Q learning Proof

来源自 http://users.isr.ist.utl.pt/\~mtjspaan/readingGroup/ProofQlearning.pdf

2. Policy Gradient Proof

参考文献：https://people.cs.umass.edu/\~akshay/courses/coms6998-11/files/lec7.pdf
备注：也可参与这边博文证明：https://lilianweng.github.io/posts/2018-04-08-policy-gradient/

Document