对于图像作为observation的,可以直接img/255.0。那么对于observation的范围不确定的如何归一化?比如humanoid这种环境,并不知道observation的范围。 我尝试使用了stable baseline 中的(obs-runing_mean)/runing_var的归一化,然而模型(几个nn.linear层)的输出总会出现nan,最有可能的原因还是输入不规范。请问有什么解决办法吗?
LeonShangguan
请查看论坛问题 深度强化学习算法中输入状态s时是否需要归一化?
LeonShangguan 使用clip试试?
实验室官方助手 很有用,谢谢~