请问是什么原因导致初始损失函数达到上千,最后却收敛于几十,这是对还是错?
zjyws 我之前测试的时候,如果算法里对非法动作加了一个价值惩罚项的话,也会导致loss太大,我想是因为估计值一下子不准了
最后能够收敛应该就没问题吧,如果损失函数太大,比如值函数损失太大可能是因为reward设置太大了,可以reward_scaling 常数,如十的负三次方,把reward降下来。一般不影响收敛。
SheaGu-SEU 我手里没有股票,生成了一个卖股票的动作,应该就算非法动作了吧?我现在的处理方法是绕过这个问题,对生成的action重新解释,保证所有action都有意义,都对应有效的买和卖。以前的对卖不存在的股票是直接忽略的,效果不太好。
war3gu 你让我想起另一个帖子上提到的方法,让不同状态对应的可选动作不一样,然后每次在可选的动作里选,应该是差不多的意思
有可能是学习率太大了,模型跑歪了(如学习率太大,梯度爆炸)。