关于具有不同可人为参数化观测模型RL agent泛化的研究？

ModernGangster

motivating example: 现需要训练一个具有传感器的agent在未知环境中的导航，该传感器对world的观测模型可以人为参数化——如观测模型为感知范围为以agent为中心，半径为r的圆，r为可人为指定的参数。现希望训练一个导航的policy，在人为给定的参数r变化时不需要重新训练（可以想象的一种情形是这个policy的表达式中就含有一个参数r），并且能够良好地泛化至不同的r。

请问是否存在相关的研究？感激不尽！ 😃

Document