近年来,深度强化学习(RL)取得了重大进展。借助大规模神经网络、精心设计的架构、新颖的训练算法和大规模并行计算设备,研究人员能够解决许多具有挑战性的RL问题。然而,在机器学习中,更多的训练能力会带来更多过度拟合的潜在风险。随着深度RL技术被应用于医疗保健和金融等关键问题,了解训练有素的智能体的泛化行为非常重要。在本文中,我们对标准RL进行了系统的研究,发现它们可能以各种方式过量。此外,过拟合可能会“强烈”发生:RL中常用的增加随机性的技术不一定能防止或检测过拟合。特别是,相同的智能体和学习算法可能会有截然不同的测试性能,即使它们在训练期间都获得了最佳回报。这些观察结果要求在RL中制定更为原则和谨慎的评估方案。最后,我们对RL中的过度拟合进行了一般性讨论,并从归纳偏差的角度研究了泛化行为。