• RL研讨会
  • 【中科院自动化所】强化学习与运筹优化前沿技术论坛(讨论专栏)

华为郝老师在论坛上讲的reward shaping 是在环境奖励加上人为奖励,但环境奖励如果也是人为设计的,也并不是很好怎么办?

是不是说现将一个一定好的奖励定义为环境奖励比如任务完成的稀疏奖励,把有可能有问题的奖励作为人为奖励是这样的吗?

说点什么吧...
Document