在深度强化学习求解路径规划问题时,如果问题结构有变化,如增加了新的问题约束,是否能够有效应对。
针对一个问题训练好的模型,在哪些情况下需要重新训练,哪些情况不需要。(因为有篇论文在训练完成10个节点的TSP问题时不需要重新训练就可以即时得到20个节点的最优路径,但有的论文里又讲结构发生变化需要重新训练,所以一时间不太清楚强化学习的泛化能力的强弱)
Eric
目前强化学习好像大多都是针对特定场景,所以去年王者荣耀挑战赛(“觉悟”)就研究了强化学习的泛化,比如用一个模型控制具有不同操作的英雄:鲁班(没有位移),李元芳(有)、后裔等等,你可以看看相关文章。
你可以查看社区里面的这三篇文章,希望有所帮助:
为何RL泛化这么难:UC伯克利博士从认知POMDP、隐式部分可观察解读: http://www.deeprlhub.com/d/545-rlucpomdp
如何提高深度强化学习的泛化性?: http://www.deeprlhub.com/d/1129
【39页综述】深度强化学习的泛化性: http://www.deeprlhub.com/d/535-39