PPO中，对过大/过小的优势值，有没有哪些比较好的数据处理方法？

Mepre

1.因为环境情况的变化，agent会在激进/保守的策略中进行切换，导致优势值在正负方向存在不同的分布(经检查，正态性检验p值远小于0.05，不是正态分布)，这种情况下还能使用PPO常用tirck Advantage Normalization(对优势值进行Z-Score Normalization)嘛？

2.我对优势值进行Advantage Normalization（减均值除以标准差）后，分布如下

在实践中，我发现越偏离均值的优势值会被高估或者低估（因为环境具有随机性，优势值为8的动作并不比优势值为2的动作好四倍，可能只是略好一点；差动作也是这样）。将优势值强行裁剪到[-2,+2]又会损失很多有效信息，有没有一些比较好的处理方法能解决这种情况？

RLer

Mepre 本质应该是对action作了限制的，所以优势应该也是在置信区间吧？

Document