我们提出并从理论上分析了一种在强化学习中使用近似模型进行规划的方法,该方法可以减少模型误差的不利影响。如果模型足够精确,它也会加速收敛到真值函数。其关键组成部分之一是MaxEnt模型校正(MoCo)过程,该过程基于最大熵密度估计公式校正模型的下一状态分布。基于MaxEnt-MoCo,我们介绍了模型修正值迭代(MoCoVI)算法及其基于采样的变体MoCoDyna。我们证明了MoCoVI和MoCoDyna的收敛速度可以比传统的无模型算法快得多。与传统的基于模型的算法不同,MoCoVI和MoCoDyna有效地利用了近似模型,并且仍然收敛到正确的值函数。