对于动作空间0-正无穷的应该怎么设计奖励函数让该动作输出越小越好 - 深度强化学习实验室

对于动作空间0-正无穷的应该怎么设计奖励函数让该动作输出越小越好

强化学习学习学习

对于动作空间0-正无穷的应该怎么设计奖励函数让该动作输出越小越好

NanNan

强化学习学习学习

为啥动作空间可以到达\infty ？关键是无穷也没有意义吧？
奖励函数的设计我理解为不依赖于action space，而在于采取Action后对环境的改变有多大程度的影响吧！

强化学习学习学习

谢谢您的回答，我的动作由神经网络输出，我想通过奖励函数限制动作的范围，所以会有这个疑问，可以这么设计吗？

Document