在强化学习(RL)的许多应用中,无论是机器人、汽车还是医疗,安全都是至关重要的。许多现有的安全RL方法依赖于接收数字安全反馈,但在许多情况下,这种反馈只能采用二进制值;即给定状态下的动作是安全的还是不安全的。当反馈来自人类专家时尤其如此。因此,我们考虑了可证明安全的RL问题,当被授予对离线预言机的访问权限时,该预言机提供关于状态、动作对安全性的二进制反馈。我们提供了一种新的元算法SABRE,它可以应用于任何MDP设置,只要可以访问该设置的blackbox PAC RL算法。SABRE应用了从主动学习到强化学习的概念,以可证明地控制安全预言的查询数量。SABRE通过迭代地探索状态空间来找到代理当前对安全性不确定的区域。我们的主要理论结果表明,在适当的技术假设下,SABRE在培训期间从不采取不安全的行动,并保证以高概率返回接近最优的安全策略。我们讨论了我们的元算法如何应用于理论和经验框架中研究的各种环境。
强化学习(RL)是一种重要的范例,可用于解决不同领域中的重要动态决策问题,如机器人、交通、医疗保健和用户辅助。近年来,人们对这个问题的兴趣显著增加,提出了许多解决方案。然而,在许多此类应用中,存在一些重要的安全考虑,这些考虑难以用现有技术解决。以一个清洁机器人为例,它的任务是学习如何用真空吸尘器清扫房子的地板。当然,机器人的主要目标是学习尽可能高效地吸尘,这可以通过给定时间内的清洁量来衡量。然而,我们也希望对机器人的行为施加安全限制;例如,机器人不应该从楼梯上滚下来,以免损坏自己,不应该翻过电线,也不应该用真空吸尘器清理主人的物品。在本例中,我们希望安全感知学习算法具有几个理想的特性,包括:
- 代理人应避免采取任何不安全的行动,即使是在培训期间
- 由于很难从机器人的感官观察先验地具体定义安全功能,我们希望代理学习给定观察状态反馈的安全函数
- 由于安全的概念是人为定义的,我们希望安全反馈是手动的由人类(例如所有者)提供,我们希望代理尽可能少地要求反馈
- 我们希望使用二进制反馈(即在给定状态下的操作是安全的还是不安全的),而不是数字反馈,因为这对人类来说更自然
- 由于代理人可能需要在没有直接干预的情况下实时采取行动,他们应该只要求两集之间的离线反馈

