问题: 波动厉害(曲线方差大),这个是DRL很常见也很正常的状态,因为不像DL那么有监督学习,策略具有不可控的性质,即使收敛后也会因为不确定的state产生不一样的trajectory
我碰到的类似情况是因为环境随机性较大,每个epoch之间环境差异较大。