PPO在自写弱随机性环境中reward发生突变如何解决？

PPO在训练过程中reward再某一阶段突然发生变化，而后重新增加。这是为什么呢？调整哪些参数可以使曲线看上去更好看一些呢？处理的持续性任务，连续的动作类型。附reward曲线和critic loss曲线图

Document