正在加载...
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
reward之间的差值较大,如果不归一化的话,反向传播,梯度消失,但是归一化有没有合适的方式
强化学习学习学习
reward 样本个数为30 归一化有没有合适的方式
Document