最近在做 LSTM-PPO 的项目,其中的 Value network 不论给的全局输入还是局部输入,最后都收敛到一个固定值,value loss 也一直下降不下来。Policy Network性能感觉受到了 Value network 的影响 ,因为计算 TD-Error中使用到 Value network 的所评估的前后状态的价值。不知道该如何解决这个问题,是不是奖励太过稀疏导致的,想问问大家有没有遇见过这种情况,该如何解决这种情况啊?求大佬解答一下,卡住好几个月了。
Leopold-Fitz-AI
有可能,建议看一下一篇文章是关于TRPO和PPO算法关于置信区间的讨论,具体记不清title了, 这是另外一个: https://arxiv.org/pdf/2006.07815.pdf
Leopold-Fitz-AI 请问解决了吗?我有相似的问题,但我是用的TD3