如上图所示,横轴是训练次数(episode数),纵轴为每个episode的reward总和。 场景是在高速公路下的时隙分配,使用D3QN算法,多智能体的强化学习
蓝线是原始的数据,橙色线是经过滑窗平滑后的结果,观察橙色数据感觉有上升及变平的过程,但是背景蓝线确实是很陡 1.请问这个图是否收敛? 2.是否有一些公式可以判断收敛,如果收敛只是通过观察得到会不会没有说服力
(中期答辩呈现出图2,我说收敛了,老师说没收敛,然后被怼)
有没有问老师怎么判断的?遇到同样的问题
请问你解决这个问题了吗?