逆强化学习(IRL)——从专家策略的演示中学习奖励函数的问题——在开发智能系统中发挥着关键作用。 虽然在应用中得到广泛应用,但对 IRL 的理论理解提出了独特的挑战,并且与标准 RL 相比仍然不够成熟。 例如,如何在标准离线设置中使用预先收集的数据有效地进行 IRL 仍然是开放的,其中状态是从行为策略(可能是专家策略本身)获得的,并且操作是从专家策略中采样的。 本文提供了使用多项式样本和运行时在普通离线和在线设置中实现高效 IRL 的第一行结果。 我们的算法和分析无缝地适应了离线强化学习中常用的悲观主义原则,并以比现有工作中考虑的更强的指标实现了 IRL 保证。 我们提供下限,表明我们的样本复杂性接近最佳。 作为一个应用,我们还表明,当目标 MDP 与原始(源)MDP 满足某些相似性假设时,学习到的奖励可以转移到具有适当保证的另一个目标 MDP。