之前见过几篇论文(好像是deepmind还是openAI?记不清了),最后有些算法的reward曲线画了一小段就不画了(可能到了20k episode,这部分曲线明显比其他算法优秀),其他算法画了很长(可能50k episode)。请问这是基于什么方法画的呢?画到最大值?还是画到达到某收敛特性的一个点,然后后面没必要再画了?
这就牵扯到另一个问题,比不同RL算法的performance的时候,如果说一个算法更优,是最大reward更大比较适用(代表找到过比别人更优的策略)还是平均值/收敛表现更适用?请问有相关的文献吗?谢谢大佬!!