什么原因容易导致强化学习训练中的损失函数很高

请问是什么原因导致初始损失函数达到上千，最后却收敛于几十，这是对还是错？

zjyws 我之前测试的时候，如果算法里对非法动作加了一个价值惩罚项的话，也会导致loss太大，我想是因为估计值一下子不准了

最后能够收敛应该就没问题吧，如果损失函数太大，比如值函数损失太大可能是因为reward设置太大了，可以reward_scaling 常数，如十的负三次方，把reward降下来。一般不影响收敛。

SheaGu-SEU 我手里没有股票，生成了一个卖股票的动作，应该就算非法动作了吧？我现在的处理方法是绕过这个问题，对生成的action重新解释，保证所有action都有意义，都对应有效的买和卖。以前的对卖不存在的股票是直接忽略的，效果不太好。

war3gu 你让我想起另一个帖子上提到的方法，让不同状态对应的可选动作不一样，然后每次在可选的动作里选，应该是差不多的意思

有可能是学习率太大了，模型跑歪了（如学习率太大，梯度爆炸）。

Document