【中科院自动化所】强化学习与运筹优化前沿技术论坛（讨论专栏）

实验室官方助手 · 2021年3月27日

欢迎大家对每一位老师的课程在评论区讨论

请直接在每一位老师对应的回复栏目里点击“编辑”即可，不用单独开“回复内容

来源于中国科学院自动化研究所

DeepRLearner · 2021年3月27日

NanNan · 2021年3月27日

1.

qaz123zz00 · 2021年3月27日

华为郝老师在论坛上讲的reward shaping 是在环境奖励加上人为奖励，但环境奖励如果也是人为设计的，也并不是很好怎么办？

是不是说现将一个一定好的奖励定义为环境奖励比如任务完成的稀疏奖励，把有可能有问题的奖励作为人为奖励是这样的吗？