欢迎大家对每一位老师的课程在评论区讨论
来源于中国科学院自动化研究所
1.
华为郝老师在论坛上讲的reward shaping 是在环境奖励加上人为奖励,但环境奖励如果也是人为设计的,也并不是很好怎么办?
是不是说现将一个一定好的奖励定义为环境奖励比如任务完成的稀疏奖励,把有可能有问题的奖励作为人为奖励是这样的吗?