强化学习(RL)的许多潜在应用都需要一个保证,该论文从理论上证明了标准最大熵RL对于动力学和奖励函数中的某些扰动具有鲁棒性。虽然在先前的工作中已通过经验观察到MaxEnt RL的这种功能,但作者为MaxEnt RL鲁棒集提供了第一个严格的证明和理论特征。尽管已经设计了许多现有的鲁棒RL算法来处理与奖励函数或动力学类似的干扰,但是这些方法通常需要在基本RL算法的基础上添加其他运动部件和超参数。相反,理论结果表明,MaxEnt RL本身对某些干扰具有鲁棒性,而无需进行任何其他修改。虽然这并不意味着MaxEnt RL是目前可用的最佳鲁棒RL方法,但MaxEnt RL确实具有惊人的简单性和吸引人的形式保证。
理论:
\min_{\tilde{p} \in \tilde{\mathcal{P}}(\pi)} J_\text{MaxEnt}(\pi; \tilde{p},
r) \ge \exp(J_\text{MaxEnt}(\pi; p, \bar{r}) + \log T.