怎么确定一个RL算法已经训练至收敛?
个人愚见,只需要看return稳定就可以了,这个时候各个loss应该也基本稳定了吧。
个人感觉,跟问题有关,如果问题有最优解,比如迷宫寻路问题,应该是指收敛到最优解(最优策略)。但是一般我们解决的问题,比如下围棋,即使是Alpha Zero也没有达到最优解,只能说是达到某个水平。这时话我觉得,收敛应该是指训练的策略达到某个水平(奖励应该算是一个衡量标准),感觉RL很少有用loss说事的感觉。------------小白之愚见
zhoushiyang12 对,再具体点,应该是一些评价该问题的指标。
在训练过程中,DRL策略在一个episode下获得的平均奖赏没有明显变化时,可以认为DRL训练近似收敛。
RL_Only 有没有这方面的论文或者参考材料?
Winnull RL_Only @ajksunke
如果看奖励函数的话,如果奖励函数像下图这样,后期基本没有变化,是否可以理解为到到(1)阶段就已经收敛了?
个人感觉,可能直观些的就是画出迭代曲线,虽然RL奖励曲线波动很大,但还是能看出一点是不是接近收敛的
Tzy2020 我觉得如果只看到1的位置可能还不够,因为完全后期还可能下降或者再上升。另外在模型性能上,在一些问题上,agent的性能(比如精度)我觉得还得另行检测才能判断当前的模型是不是个好模型,可能不能仅仅看这个奖励曲线。
这个问题要根据具体问题定义和设计来分析。如果收敛的定义是“策略的决策水平不再显著提高”,那就是如何找到合适的指标来判断策略“不再显著提升”,以下是一些个人看法:
Taospirit 我用的reward是及时收益,每次动作都会有这个reward,但是我学习之后,每次都是瞬间reward达到一个很高的水平,然后后期基本不变了,这是为什么呢??
Taospirit loss是看每局的loss总和吗?
Taospirit 刚才提到了利用策略熵来衡量是否收敛,请问Policy Gradient如何从公式以及代码上衡量策略熵,具体比如PPO算法
keinccgithub 你好,我也遇到了类似的情况,请问你解决这个问题了吗?
keinccgithub 我也遇到同样的问题,请问这个问题您最终解决了吗?
[未知] 我也遇到同样的问题,请问这个问题您最终解决了吗?
Zebin-Li 还没有解决,不过和你的问题结构有关系
给大家分享几个资料:
Convergence of Reinforcement Learning Algorithms , To the Bellman Updates — how does this bound at initialization evolve with each step? Above, we see that the error is reduced by the discount factor at each step (from how the sum in the recursive update is always prepended with a gamma). This evolves below into a series of decreasing errors with each iteration.
Convergence of reinforcement learning with general function approximators
Convergence of Reinforcement Learning, 如图所示: