刚开始没多久,reward曲线变成这样了
建议查看: http://deeprlhub.com/?q=%E5%A5%96%E5%8A%B1%E5%87%BD%E6%95%B0
一般的:看奖励函数、还要看网络的损失值。