motivating example: 现需要训练一个具有传感器的agent在未知环境中的导航,该传感器对world的观测模型可以人为参数化——如观测模型为感知范围为以agent为中心,半径为r的圆,r为可人为指定的参数。现希望训练一个导航的policy,在人为给定的参数r变化时不需要重新训练(可以想象的一种情形是这个policy的表达式中就含有一个参数r),并且能够良好地泛化至不同的r。
请问是否存在相关的研究? 感激不尽! 😃