如果一个策略在考虑一个糟糕的甚至是对抗性的模型的同时最大化奖励,那么它就被认为是稳健的。 我们考虑代理尝试执行动作 a 的两种情况,以及 (i) 以概率 p 采取替代的对抗性动作 a',或 (ii) 在连续的情况下,对手向所选动作添加扰动 行动空间。 我们表明,我们的标准与机器人领域中常见的不确定性形式有关,例如突然力的发生,并在表格情况下建议算法。 在建议的算法的基础上,我们将我们的方法推广到深度强化学习 (DRL),并表明我们的方法不仅可以产生稳健的策略,而且还可以在没有扰动的情况下提高性能。 这种概括表明,动作鲁棒性可以被认为是 RL 问题中的隐式正则化