reward之间的差值较大，如果不归一化的话，反向传播，梯度消失，但是归一化有没有合适的方式

reward 样本个数为30 归一化有没有合适的方式

Document