正在加载...
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
对于动作空间0-正无穷的应该怎么设计奖励函数 让该动作输出越小越好
强化学习学习学习
对于动作空间0-正无穷的应该怎么设计奖励函数 让该动作输出越小越好
NanNan
强化学习学习学习
为啥动作空间可以到达\infty ?关键是无穷也没有意义吧?
奖励函数的设计我理解为不依赖于action space,而在于采取Action后对环境的改变有多大程度的影响吧!
强化学习学习学习
谢谢您的回答,我的动作由神经网络输出,我想通过奖励函数限制动作的范围,所以会有这个疑问,可以这么设计吗?
Document