PPO中的Value network收敛到一个固定值，该如何解决。

Leopold-Fitz-AI

最近在做 LSTM-PPO 的项目，其中的 Value network 不论给的全局输入还是局部输入，最后都收敛到一个固定值，value loss 也一直下降不下来。Policy Network性能感觉受到了 Value network 的影响，因为计算 TD-Error中使用到 Value network 的所评估的前后状态的价值。不知道该如何解决这个问题，是不是奖励太过稀疏导致的，想问问大家有没有遇见过这种情况，该如何解决这种情况啊？求大佬解答一下，卡住好几个月了。

Learner

Leopold-Fitz-AI

有可能，建议看一下一篇文章是关于TRPO和PPO算法关于置信区间的讨论，具体记不清title了，这是另外一个: https://arxiv.org/pdf/2006.07815.pdf

MADWORLDX

Leopold-Fitz-AI 请问解决了吗？我有相似的问题，但我是用的TD3

Document