
从人类反馈中强化学习(RLHF)的方法被广泛用于增强预训练的语言模型(LM),使其能够与人类偏好保持一致。然而,每当引入新的查询或反馈时,现有的基于RLHF的LM都需要完全重新训练,因为不同领域或主题的人类偏好可能不同。由于涉及大量时间和计算成本,以及数据隐私问题,LM再培训在大多数现实场景中都是不可行的。为了解决这一局限性,我们提出了连续邻近策略优化(CPPO),这是一种能够使LM与动态人类偏好持续对齐的新方法。具体而言,CPPO采用加权策略来决定哪些样本应用于加强政策学习,哪些样本应用来巩固过去的经验。这寻求政策学习和知识保留之间的良好权衡。我们的实验结果表明,当与人类偏好一致时,CPPO的表现优于强连续学习(CL)基线。此外,与PPO相比,CPPO在非连续场景中提供了更高效、更稳定的学习
最近的研究(Stiennon等人,2020;Bai等人,2022a;Ouyang等人,2022)表明,来自人类反馈的强化学习(RLHF)可以通过将语言模型与人类意图对齐来显著增强语言模型。RLHF使用人类偏好作为奖励信号,通过Proximal Policy Optimization(PPO)算法对语言模型进行微调。基于RLHF的模型可以有效地生成人类对缺乏标准化解决方案的任务的首选答案,如总结(Stiennon等人,2020)、翻译(Kreutzer等人,2018)和对话(Jaques等人,2020年),而不会过度优化ROUGE(Lin,2004)或BLEU(Papineni等人,2002)等指标。在现实世界的应用中,学习不断变化的人类偏好比学习不变的人类偏好更实用。例如,从新冠肺炎病毒在人类社会中的发病到广泛感染,再到最终实现群体免疫,政府政策和人类观点发生了相应的变化。一个跟上时代步伐的人工智能代理应该在不同阶段表现出与当前政府政策和人类理解偏好相一致的行为,而不是保持静止。然而,传统的对齐方法(Stiennon等人,2020;Ouyang等人,2022)缺乏对人类偏好的持续学习(CL)的灵活性。最近的方法(Bai等人,2022a)通过基于新数据和历史数据定期重新训练偏好模型(PM)和政策来解决这些问题,由于涉及计算成本和数据隐私的问题,这种方法可能效率低下且不切实际。在这篇论文中,我们提出了一种更实用的方法,通过持续学习(CL)增强RLHF,旨在优化两个相互冲突的目标:保留旧知识和获取新知识(Rolnick等人,2019)。这导致了一个长期存在的挑战,即稳定性-可塑性困境(Abraham&Robins,2005)。此外,由于LM的动作空间(词汇)很大,RLHF算法(如PPO)在训练过程中通常会遇到效率低下和不稳定的问题(Ramamurthy等人,2022)。为了应对这些挑战,我们试图通过在推出的2个样本上设计一个样本加权策略,在策略学习和知识保留与稳定学习之间寻求良好的权衡。我们的加权策略是基于这样一个事实,即理想的政策应该始终以高概率产生高回报结果。具体来说,我们首先根据奖励和生成概率将推出样本分为五种类型,如图1所示。然后,我们按照以下方式为每个推出样本分配策略学习权重α和知识保留权重β。1) 对于高性能样本,我们指定一个高α和一个高β,以巩固该样本的知识。2) 对于高方差或过拟合样本,我们分配一个高α和一个低β,以便了解更多关于这个样本的知识,并迫使新策略在生成这样的样本时与旧策略不同。3) 对于有噪声的样本,我们指定一个低α和一个低β,以减少其对学习的影响。4) 对于正常样本,我们不做任何更改。基于上述加权策略,我们开发了一种新的基于PPO的方法,称为连续近端策略优化(CPPO)。CPPO以两种不同的方式实现加权策略:启发式和可学习性增强,从而产生两种不同CPPO方法(详见第3.2节)。启发式方法根据1策略设置具有线性增益或衰减的权重。可学习方法将策略lb转换为几个不等式约束,并通过优化拉格朗日函数来学习最佳权重。弱化真实世界摘要数据集上的实验结果表明,我们提出的CPPO方法奖励高方差噪声高性能正态过拟合在CL和非CL设置中均显著优于PPO再训练方法和强CL基线(详见附录F)。此外,在这两种设置下的额外实验验证了CPPO与原始PPO算法相比具有更优的训练稳定性。



