安全强化学习是极具挑战性的——代理人不仅必须探索未知环境,而且必须在确保不违反安全约束的情况下进行探索。我们使用具有未知转移概率函数的有限视界约束马尔可夫决策过程(CMDP)框架来描述这个安全强化学习(RL)问题,其中我们将安全需求建模为在所有学习过程中必须满足的预期累积成本的约束。我们提出了一种基于模型的安全RL算法,我们称之为双重乐观和悲观探索(DOPE),并表明它在学习过程中不违反安全约束的情况下实现了客观遗憾O(|S|p|a|K),其中|S|是状态数,|a|是动作数,K是学习集数。除了标准的基于乐观模型的探索之外,我们的关键思想是将探索奖励(乐观)与保守约束(悲观)相结合。与早期的乐观悲观方法相比,DOPE不仅能够改善客观后悔界限,而且表现出显著的经验绩效改善


约束马尔可夫决策过程(CMDP)施加了与系统的资源或安全约束有关的限制。例如,由于用户健康和电池寿命的考虑,无线通信系统中的平均辐射功率必须受到限制,或者自动驾驶车辆中的制动或加速频率必须保持有限,以确保乘客舒适。由于这些系统具有复杂的动力学特性,约束强化学习(CRL)方法对于确定最优控制策略具有吸引力。但是,我们如何确保在学习这种最佳控制策略时不违反安全或资源可用性限制?我们的目标是开发一个无约束违反(高概率)的安全勘探框架,用于解决模型未知的CMDP问题。尽管在MDP和CMDP环境中的RL方面已经做了大量工作,但确保CRL环境中的安全勘探受到的关注较少。这个问题是具有挑战性的,因为我们在学习或部署过程中都不允许违反约束,同时确保在最佳目标方面的遗憾很低。我们的目标是探索一种在情景环境中基于模型的方法,在这种环境下,当从系统中收集样本时,模型(CMDP的过渡核)根据经验确定。最近,人们对基于模型的RL方法来求解约束MDP产生了浓厚的兴趣,我们在表1中总结了其中最相关的方法。该设置是一个有限视界的情景CMDP,状态空间大小为|S|,动作空间大小为| a|,视界长度为H。在算法的前K集上测量后悔。对于给定的策略,在预期意义上计算所达到的目标和约束满意度。在学习过程中允许违反约束意味着算法会遭受客观遗憾和约束遗憾。
