各位大佬,大家知道在强化学习中,如何证明q learning的收敛性与policy gradient的收敛性?
NanNan
来源自 http://users.isr.ist.utl.pt/\~mtjspaan/readingGroup/ProofQlearning.pdf
参考文献:https://people.cs.umass.edu/\~akshay/courses/coms6998-11/files/lec7.pdf 备注:也可参与这边博文证明:https://lilianweng.github.io/posts/2018-04-08-policy-gradient/