正在加载...
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
SAC算法的actor loss的绝对值增大,并且actor loss是负的
010101
使用的代码是动手学强化学习中的sac算法代码,使用给定的例子也是这样的结果,这种情况对于sac算法正常吗。
实验室官方助手
010101
为什么要用绝对值?
Document