最近在训练过程中,发现reward振荡,明明已经得到最高奖励了,但是再训练就开始起伏很大。所以想问一下有没有判断已达到最优然后自动结束训练的方法呢?就是不需要再去设定训练次数了,判断收敛就自动结束训练?
it-junjun 可以参考一下这个文章:【强化学习】如何证明q learning的收敛性与policy gradient的收敛性?
是否是算法中加入的探索导致的波动呢,如果是的话可以在训练后期慢慢减少探索
JianfengZhang112358 嗯嗯好的
Richard 谢谢