强化学习判断收敛的方法

最近在训练过程中，发现reward振荡，明明已经得到最高奖励了，但是再训练就开始起伏很大。所以想问一下有没有判断已达到最优然后自动结束训练的方法呢？就是不需要再去设定训练次数了，判断收敛就自动结束训练？

是否是算法中加入的探索导致的波动呢，如果是的话可以在训练后期慢慢减少探索

Document