求助大佬们,请问强化学习的奖励设计的时候,如果全部设置为正值没有负值的话,会有影响吗?是必须要让奖励有正有负吗? :
没问题啊,可以,不过我喜欢有负值的,有惩罚的意思在里边
forrestneo 同意。要看具体情况。负面outcome我喜欢负值,我理解reward=0就是不好也不坏。比如走迷宫找最短路径,每一步就该是负reward,不然agent就会瞎转悠
减去均值不就有大有小吗?
bryanyuan1 拒绝躺平,也不能内卷