深度强化学习算法中输入状态s时是否需要归一化？ - 深度强化学习实验室

深度强化学习算法中输入状态s时是否需要归一化？

PonyShan

在学习PPO、DDPG等各类算法的时候发现action, advantage, reward等都进行了归一化处理，最近在思考状态s是否需要归一化？

实验室官方助手

PonyShan 推荐学习一下实验室B站里面的这个视频：

Document