在学习PPO、DDPG等各类算法的时候发现action, advantage, reward等都进行了归一化处理,最近在思考状态s是否需要归一化?
PonyShan 推荐学习一下实验室B站里面的这个视频: