【请问我这个算法是否收敛？】如何观察收敛曲线/如何确定收敛

如上图所示，横轴是训练次数（episode数），纵轴为每个episode的reward总和。
场景是在高速公路下的时隙分配，使用D3QN算法，多智能体的强化学习

蓝线是原始的数据，橙色线是经过滑窗平滑后的结果，观察橙色数据感觉有上升及变平的过程，但是背景蓝线确实是很陡
1.请问这个图是否收敛？
2.是否有一些公式可以判断收敛，如果收敛只是通过观察得到会不会没有说服力

（中期答辩呈现出图2，我说收敛了，老师说没收敛，然后被怼）

有没有问老师怎么判断的？遇到同样的问题

请问你解决这个问题了吗？

Document