在强化学习应用中,为避免意外风险,需要在强化学习实际部署前进行离线策略评估(off-policy evaluation, OPE),这在机器人、自动驾驶等领域产生了巨大的应用前景。离线策略评估是从行为策略收集 到的轨迹数据中,不需要通过实际的强化学习而估计目标策略的状态价值,通常情况下学习目标是使所估 计的目标策略状态价值与目标策略真实执行的状态价值均方误差尽可能小。行为策略与目标策略间的差异 性,以及新应用中出现的行为策略奖励稀疏性,不断给离线策略评估带来了挑战。本文系统性地梳理了近 二十年离线策略评估的主要方法:纯模型法、重要性采样法、混合模型法和 PU 学习法(positive unlabeled, PU),主要内容包括:(1)描述了离线策略评估的相关理论背景知识;(2)分别阐述了各类方法的机理、 方法中模型的细节差异;(3)详细对各类方法及模型进行了机理对比,并通过实验进行了主流离线策略评 估模型的程序复现与性能对比。最后展望了离线策略评估的技术挑战与可能发展方向。