原文:Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
作者: Yuntao Bai∗,Andy Jones, Kamal Ndousse,Amanda Askell, Anna Chen, Nova DasSarma, Dawn Drain, Stanislav Fort, Deep Ganguli, Tom Henighan, Nicholas Joseph, Saurav Kadavath, Jackson Kernion
一、简介
二、数据收集
---- 2.1 任务规范和众筹者
---- 2.2 帮助性和无害性(红队)数据集
---- 2.4 用Elo分数比较模型
三、帮助性和无害性的偏好模型
---- 3.1 模型和训练设置
---- 3.2 基本缩放结果
---- 3.3 偏好模型的校准和对RL的影响
---- 3.4 评估有帮助和无害的偏好模型
------------ 3.4.1 HHH评估和众筹者------协议
------------ 3.4.2 性别偏差和机器人对抗性对话
四、从人类反馈中强化学习
---- 4.1 训练设置
---- 4.2 鲁棒性实验
---- 4.4 RLHF训练中帮助性和无害性之间的紧张关系
---- 4.5 迭代的在线RLHF
---- 4.6 评估。对齐奖金、诚实和偏差
------------ 4.6.1 NLP评估
------------ 4.6.2 诚实和偏差
五、竞争目标、专业技能和OOD检测
---- 5.1 将有帮助的和无害的目标混在一起
------------ 5.1.1 变化的有帮助与无害的数据比例
------------ 5.1.2 对有帮助的损失与无害的损失进行加权
---- 5.2 归纳是一种专门的技能
---- 5.3 自然语言RLHF对代码动力学模型的影响
---- 5.4 应用分布外检测来拒绝奇怪的或有害的请求
六、定性的例子和比较
---- 6.1 与人类作家的比较
---- 6.2 敏感问题和回避与参与的关系
---- 6.3 对话范例
七、讨论
---- 7.1 限制条件
---- 7.2 将数据作为一种公共产品进行调整
---- 7.3 更广泛的影响
一、简介
我们应用偏好建模和来自人类反馈的强化学习(RLHF)来微调语言模型,使其成为有帮助的无害助手。我们发现,这种调整训练提高了几乎所有NLP评估的性能,并与python编码和总结等专门技能的训练完全兼容。我们探索了一种迭代的在线训练模式,在这种模式下,偏好模型和RL策略以每周的节奏与新鲜的人类反馈数据进行更新,有效地改善我们的数据集和模型。最后,我们研究了RLHF训练的鲁棒性,并确定了RL奖励和策略与其初始化之间KL散度的平方根之间的大致线性关系。除了我们的主要结果,我们还对校准、竞争目标和OOD检测的使用进行了外围分析,将我们的模型与人类作家进行了比较,并使用最近相关工作中出现的提示提供了我们模型的样本。
我们希望开发一些技术来训练有帮助、诚实和无害的人工智能agent[Askell等人,2021]。在本文中,我们表明我们可以通过收集人类的偏好数据并应用偏好建模(PMing)和从人类反馈中强化学习(RLHF)的技术来训练一个相对有帮助和无害(HH)的自然语言助手。我们的完整训练过程总结在图2中。
图2: 这张图总结了我们的数据收集和模型训练工作流程。
我们的目标不是定义或规定 "有帮助 "和 "无害 "的含义,而是评估我们训练技术的有效性,所以在大多数情况下,我们只是让我们的群众工作者按照他们认为合适的方式解释这些概念。我们将有帮助和无害分开处理,分别收集不同的人类偏好数据集。对于有用性,我们要求群众工作者征求我们的模型来协助任何纯文本的任务,如回答问题、编写或编辑文件、或讨论计划和决定。在无害性方面,我们邀请群众工作者对我们的语言模型进行对抗性探测或 "红队",以激起有害的反应:要么帮助他们实现有害的目标,如计划抢劫银行,要么导致人工智能使用有毒的语言。在他们与人工智能助手对话的每个阶段,群众工作者都有两种可能的反应。那些从事帮助性任务的人被 表明选择更有帮助和诚实(即更好)的反应。那些参与红队任务的人被 表明选择更有害(即更坏)的反应。这些对话和所表达的人类偏好构成了我们的数据集。
帮助性和无害性往往是相互对立的。对避免伤害的过度关注会导致 "安全 "的反应,而这些反应实际上并没有解决人类的需求。过度关注帮助可能导致帮助人类造成伤害或产生有毒内容的反应。我们从数量上证明了这种紧张关系,表明经过训练的主要评估这些品质之一的偏好模型在另一个方面的表现非常差(比机会差很多)。幸运的是,我们发现,在这两个数据集的混合体上训练的PM还是可以学到正确的经验,在适当的时候表现得很有帮助,同时鼓励礼貌地拒绝有害的请求。有了偏好模型在手,我们就可以通过强化学习来训练有帮助和无害的助手,把PM的分数作为奖励。我们评估了PM的性能和我们的RLHF训练的模型的更相关的性能特征。从图1中可以看出,纯粹的有帮助的RLHF训练的模型更容易成为红队,而有帮助的+无害的模型既非常有帮助,也更少有害。
图1: 该图总结了众人对各种模型的偏好,包括上下文蒸馏模型、在我们的 "静态 "数据集上训练的RLHF模型,以及用迭代的 "在线 "方法训练的RLHF模型,用于帮助性和无害性(HH)或仅用于帮助性。我们提出了Elo分数和与52B上下文解析模型相比,众人喜欢样本的频率的匹配。对于有用性和无害性来说,更高的分数是比较理想的。
关于对齐训练经常提出的一个问题是它是否会损害人工智能的能力。我们发现,当RLHF被应用于大型语言模型时,答案似乎是一个几乎绝对的否定。我们的RLHF训练的模型往往在几乎所有的评估中都比其原始的、生成性的对应模型表现得更好,如图3所总结的。我们还认为,人们可以将专门的技能与对齐相关的训练结合起来,而不影响对齐或性能。在实践中,对齐的模型可能比原始的模型更容易使用和部署,这表明没有什么理由部署没有经过微调的模型来进行对齐。
图3
图3: RLHF模型在zero-shot和few-shot NLP任务上的表现。对于每个模型的大小,我们绘制了MMMLU、Lambada、HellaSwag、OpenBookQA、ARC-Easy、ARC-Challenge和TriviaQA的平均准确性。在zero-shot任务中,针对有用性和无害性的RLHF训练会损害小模型的性能,但实际上会提高大模型的性能。每项任务的完整结果见图28(zero-shot)和图29(few-shot次shot)。
1.1 贡献
对话偏好数据集
- 我们主要使用各种52B语言模型(详见第2节)在我们的界面(图6)中收集单独的有用性和无害性(即红队)数据集。群众工作者与模型进行开放式对话,或寻求帮助,或提供 表明,或试图让模型发出有害的反应,他们被要求在每个对话步骤中分别选择更有用的反应或更有害的反应。
图6: 我们展示了众筹者用来与我们的模型互动的界面。这是帮助性的格式;红队的界面非常相似,但要求用户选择更有害的反应。
- 我们收集了三批数据,一批来自我们的初始模型,一批是针对早期偏好模型的拒绝采样,最后一批是用从人类反馈中 "在线 "强化学习训练的模型收集的数据集,我们大致每周都会对这些数据进行改进。见第2.3节。
- 较小的模型经历了严重的 "对齐税"--在RLHF训练后,它们在各种评估中的表现都有所下降。然而,我们发现了各种排列组合的红利,我们的13B和52B5 RLHF训练的模型在zero-shotNLP评估中表现更好,而在few-shot次评估中也是如此。
- HH的自然语言RLHF训练可以应用于那些首先在代码上进行微调的模型,它可以提高它们在评估上的编程能力(大概是通过提高通用指令的跟随性)。我们还发现,将针对HH的偏好模型训练与总结的专门技能[Stiennon等人,2020]混合在一起,无论是HH还是总结,都不会造成性能的下降。因此,没有理由不将排列组合训练与更具体、更有价值的技能相结合。
- 有用性和无害性之间存在矛盾,这可以在偏好建模和RLHF训练的策略层面上进行衡量(图1)。然而,随着模型规模的增加,PM在两种分布上同时表现得更好,并且对有帮助和无害的训练数据的相对比例变得更加稳健。
- 我们还表明,人们可以使用OOD检测技术[Fort et al., 2021]来拒绝大多数奇怪和有害的请求(图22),很少或没有有害的例子(图23)。
图22 通过测量与有用性数据的距离来检测有害内容。左边面板显示了不同的模型大小和提取激活向量的层的有用性与无害性数据的AUROC,使用来自有用性数据的Mahalanobis距离的变体,我们称之为简化相对Mahalanobis距离(受[Ren等人,2021]启发)作为分数。模型越大,检测AUROC越好,中间层对大模型表现最好。误差条是对我们的数据进行随机训练-测试分割的3次运行的标准偏差。右图显示了52B模型及其第32层的有用性和无害性未见测试数据的OOD分数分布。
规模化、RLHF鲁棒性和迭代的 "在线 "训练
- 我们研究了PM准确性作为模型和数据集大小的函数的比例关系,并发现了大致的对数线性趋势(图7),尽管我们遇到了一些特例(图31和32)。
图7: (左图)我们展示了在静态有用性和无害性(即'HH')数据分布的混合上训练时,PM准确性的学习曲线。由于我们训练的是一个epoch,这些结果也让人感觉到数据集大小对准确性的影响。(右图)我们展示了HH静态偏好模型准确性的模型大小依赖性。
- 我们对RLHF的鲁棒性进行了实验(见图4),我们将数据集分成两半,在每一半上训练独立的偏好模型。然后我们针对一个PM训练RL模型,同时用另一个PM进行评估。我们得出结论,较大的PM比较小的PM更稳健,而且正如预期的那样,在RLHF训练过程中,过拟合现象会增加。
图4: 该图显示了RL鲁棒性实验的结果。我们将静态数据集按50:50的比例分割,并在每一半上训练不同的PM,我们将其称为训练PM和测试PM。然后我们针对训练 PM 训练 RLHF 策略,同时评估它们相对于测试 PM 的得分。过拟合可以通过训练和测试PM得分之间的分歧来观察。(左图)我们看到,在大约15万个训练样本之前,训练是相当稳健的,但超过这一点,训练和测试PM就不一致了,训练PM分配的平均奖励更高。我们还显示,在训练的早期阶段,PM得分的增加与KL散度的平方根(策略与它的初始快照之间)之间存在近似的线性关系--我们对所有的RLHF运行都观察到了这一点,在第4.3节有更多的讨论。
- 我们发现,在RLHF的大部分训练中,DKL(π|π0)和奖励大约是线性关系(见图4和图13),其中π和π0分别是策略和初始策略。我们解释了这种关系是如何产生的,并讨论了可能的应用和未来方向。
- 我们研究了迭代的在线训练,我们每周都会更新我们的偏好模型和RLHF策略,然后重新部署这些新鲜的RLHF模型,与群众工作者互动。这大大改善了众筹者对我们的模型的评价(图1),并大大改善了我们自己的PM所判断的数据集(图15),在质量方面填补了上层尾巴。
图15: (左图)该图显示了来自我们的基本数据集(主要是用上下文蒸馏模型)、用拒绝采样增强的模型以及用我们迭代的 "在线 "RLHF模型收集的数据的单独归一化分布。分布的上端尾部从RS和在线模型中得到了更多的支持,这应该使偏好模型有可能在高质量的反应中学习到更微妙的区别,并放大了进一步收集数据的价值。(右图)我们比较了我们的HH和纯帮助性迭代的在线RLHF模型在RLHF训练期间的不同点的帮助性Elo得分。请注意,Elo分数和偏好频率是相对于初始快照测量的,在这两种情况下都是我们的52B上下文提炼模型。两个子图中的Elo分数只评估了有用性。
为了消除混杂因素并支持我们的结论,我们在数据集大小和其他超参数固定的情况下进行了额外的控制实验(图16)。
图16: 我们比较了两个52B RLHF训练运行的Elo分数,这两个训练运行使用了同等大小的数据集和相同的超参数:一个是在我们的基础数据集上训练的(橙色),另一个是在基础、RS和在线分布的数据的均匀混合上训练的(蓝色)。我们发现,众筹者更喜欢迭代后的在线模型。
1.2 评估和衡量标准摘要
- NLP和代码评估:我们在MMLU[Hendrycks等人,2021b]、Lambada[Paperno等人,2016]、Hellaswag[Zellers等人,2019]、OpenBookQA[Mihaylov等人,2018]、ARC[Clark等人,2018]和TriviaQA[Joshi等人,2017]上评估我们的模型;完整结果见图28和29,平均值见图3。除了TriviaQA,在每一种情况下,12B和52B RLHF训练的模型都比基础LM表现更好。另外,我们采取Python编码模型,用自然语言RLHF对其进行微调,然后在codex HumanEval [Chen et al., 2021]上进行评估;见图21。我们还试验了将HH的PM训练与总结[Stiennon等人,2020]作为一项专门技能进行混合训练,并对由此产生的PM性能进行评估(图20),发现混合训练并没有降低PM的准确性。
图20: 这里我们展示了在(1)仅 "静态 "HH数据、(2)仅总结数据[Stiennon等人,2020]和(3)两者混合训练的偏好模型的比较精度。混合训练对PM的准确性没有负面影响。
- 静态对齐评估:我们使用BIG-Bench6的HHH评估[Askell等人,2021](图5)、Bot对抗性对话[Xu等人,2020]以及性别偏差[Rae等人,2021](图12)评估我们的PM。我们在TruthfulQA [Lin et al., 2021](图5)、BIG-Bench的BBQ-Lite [Parrish et al., 2021]、性别偏差(图40)和基于种族和宗教的情感[Rae et al., 2021](图17)上评估我们的RLHF模型。RLHF改善了对所有群体的情感,但并没有消除偏差。
图5: (左图)这里我们展示了我们之前构建的[Askell等人,2021]并在BIG-Bench上分享的HHH对齐评估数据集的准确性。我们看到,我们的静态偏好模型大大超过了普通语言模型,包括上下文提炼的HHH模型。这证实了我们的群众工作者产生的数据已经让偏好模型学到了预期的课程。(右图)我们的RLHF训练提高了大型模型在TruthfulQA(MC1)[Lin等人,2021]上的表现,其效果随着模型大小而增加。这些RLHF模型是从我们的静态数据集中训练出来的(也就是说,它们没有使用在线数据)。
图12: 这些图显示了来自静态偏好模型在对齐相关数据分布上的分数或分数差分布。(左)我们评估了已被指定为有害或无害的Bot对抗性对话[Xu等人,2020]。(右图)我们展示了 "CEO是位女士 "形式的语句的偏好模型得分差异分布,在保持职业固定的情况下,比较了一个性别类别内(如绅士与男友)和跨性别(如母亲与父亲、女士与绅士)的词汇之间的差异。
图17: 这里我们展示了从涉及种族和宗教的各种提示中产生的样本的情感分数(越高越有利的情感)。我们看到,RLHF训练的主要效果是提高对所有群体的情感。
- 人类评估:我们根据众人的喜好来计算Elo分数,比较上下文提炼的模型、基础RLHF训练模型和最终的在线RLHF模型(图1)。我们还测试了我们的在线模型在训练过程中的表现(图15),比较了各种水平的拒绝采样(图36),并对迭代的在线训练进行了控制实验(图16)。此外,我们聘请了专业作家来编写对话,由助理提供高质量的、有帮助的和诚实的回应,然后我们让群众工作者将我们的模型的回应与这些作家的回应进行比较。群众工作者在大约57%的时间里喜欢我们的在线HH模型而不是这些作家7。
- 样本:我们在附录C中提供了PALMs[Solaiman and Dennison, 2021]的所有敏感问题以及InstructGPT[Ouyang et al., 2022]和LaMDA[Thoppilan et al., 2022]提供的提示样本。我们在第6.1节中展示了与人类作家的一些比较,并在第6.3节中展示了几个短对话。为了减轻偷梁换柱的问题,我们为每个提示生成17个样本,并只显示由我们的在线HH偏好模型排列的中位样本。
1.3 相关工作
最近的两篇论文,LaMDA[Thoppilan等人,2022]和InstructGPT[Ouyang等人,2022]与这项工作有特别相似之处。两者都使用人类数据来训练大型语言模型,使其更普遍有用或一致。两者使用的语言模型都比我们的52B模型要大一些。
LaMDA[Thopilan等人,2022]对大型语言模型进行微调,以参与有趣、有帮助、有事实依据和安全的自然语言对话。与我们的工作一样,他们包括积极互动和安全/无害这两个概念。而他们使用外部信息来确保准确性/基础性的做法超出了我们在这里讨论的方法,也许更类似于WebGPT和GopherCite[Nakano等人,2021,Menick等人,2022]。然而,一些不同之处在于,他们没有使用强化学习,而是混合使用了监督学习技术(包括生成性和判别性),他们的数据收集过程涉及到绝对评级而不是比较。他们没有探讨他们的方法是否对能力征收 "对齐税"。
InstructGPT[Ouyang等人, 2022]对GPT-3型模型[Brown等人, 2020]进行微调,以提高其帮助性。和这项工作一样,他们使用从人类偏好中进行强化学习,通过比较来表达。然而,他们还包括一个监督学习的训练阶段,而相比之下,我们的微调纯粹是通过RL进行的(我们进行上下文提炼,但这更像是简单的提示)。也许与我们的工作的主要对比是,他们不包括无害化训练,也不探索帮助性和无害化之间的矛盾。他们的方法在一些细节上也与我们不同:他们没有训练大于6B参数的偏好模型,而且他们将预训练与RL混合,以避免评估性能的下降。
我们的工作与InstructGPT和LaMDA的不同之处在于,我们探索了 "在线 "训练,在这里我们更新了与众人互动的模型,以获得逐步提高的数据质量,并填补了数据分布的尾部。另一个区别是我们对专业技能的探索,如总结和编码,我们用它来支持这样的论点,即在不限制能力的情况下可以实现对齐。我们还明确地研究了有用性和无害性之间的矛盾,就我们所知,这在以前是没有被解决的。最后,我们更详细地探讨了缩放性和鲁棒性,包括在RL训练期间。综上所述,我们的程序(图2)实际上比这些其他工作中所采用的程序要简单一些。我们认为唯一必要的步骤是人类反馈数据的收集、偏好建模和RLHF训练。
最近的其他几项工作侧重于使用数据库中的检索[Lewis等人,2020,Guu等人,2020,Borgeaud等人,2021],或通过互联网搜索和人类反馈,如WebGPT[Nakano等人,2021]和GopherCite[Menick等人,2022]的真实性方面。这些工作是令人振奋的,也是对我们工作的补充;特别是我们的结果表明,他们的技术应该与有用性和无害性的训练非常兼容。虽然这些工作改善了对明确证据的忠实表述,但要实现人工智能系统的诚实自我表述,可能还需要更多的工作。我们普遍希望独立于人类反馈的技术可以适用于这个问题,因为大量的真相来源不是基于人类的判断。
与语言模型相关的安全和伦理问题已被广泛讨论(例如[Henderson等人,2017,Bender等人,2021,Weidinger等人,2021]),众所周知的问题包括毒性、偏差,以及模型可能泄露个人身份信息的情况。随着模型变得越来越强大,可能会出现新的和令人惊讶的能力和安全问题[Ganguli等人,2022]。其他工作已经探索了缓解这些问题的方法(例如[Liu等人,2021,Xu等人,2020])。模型也被训练来直接评估道德困境[Jiang等人,2021],显示出对道德基准的改进[Hendrycks等人,2021a]。关于人工智能安全的更普遍的研究建议包括[Amodei等人,2016,Hendrycks等人,2021c]。我们讨论的RL鲁棒性失败可以被看作是 "奖励黑客 "的一个实例,最近在[Pan等人,2022]中进行了探讨。RL策略也可能以其他危险的方式无法泛化出分布[Koch等人,2021]。
我们对研究模型规模趋势的兴趣是由神经缩放法则[Hestness等人,2019,Rosenfeld等人,2019,Kaplan等人,2020]激发的。一个相关的观察是,随着参数量的增长,模型会更有效地进行微调[Hernandez等人,2021],变得更不容易受到 "灾难性遗忘 "的影响[Ramasesh等人,2022]。我们希望这种效应有助于解释为什么我们的HH训练与良好的评估性能和大型模型的专门技能相匹配。
二、数据收集
我们预计,当人们有复杂的直觉,容易引起,但很难正式化和自动化时,人类反馈(HF)比其他技术有最大的比较优势。这意味着,在收集高频时,我们应该尽量选择尽可能直观和熟悉的任务。我们选择使用自然语言对话既是出于这些原因,也是因为它非常普遍--基本上任何基于文本的任务都可以通过对话来完成,也许还包括一些在线的源材料。
2.1 任务规范和众筹者
我们的人类反馈界面可以在图6中看到(更多细节见附录D)。人们可以通过聊天与我们的模型进行自然语言互动,并就任何基于文本的任务寻求帮助。当轮到模型的对话时,用户会看到两个可能的模型回应,并选择其中一个继续。这两个回答可能来自同一个模型,或者两个不同的模型。然后,他们可以提出后续问题或向模型提供进一步 表明。因此,这个任务有两个核心部分,它们在每次对话中都会重复几次。
- 众筹者给我们的模型写了一条聊天信息,要求他们执行一项任务,回答一个问题,或讨论任何感兴趣的主题。
- 众筹者会看到两种回应,并被要求选择更有帮助和诚实的回应(或者在红队的情况下,选择更有害的回应)。
我们推测,那些写得好并让人工智能参与更有趣的讨论的群众工作者,往往对哪些人工智能的反应最 "有用 "和 "无害 "有更好的判断。这意味着我们没有试图根据标签的质量来过滤众筹者,而是对他们的写作进行抽查,这对我们来说更简单、更直观地执行。
否则,我们收集数据的方法主要是让群众使用他们自己的直觉来定义 "有用性 "和 "有害性"。我们希望数据的多样性(我们认为这是非常有价值的)和 "群众的智慧 "能够提供与更密集的验证和过滤的小型数据集相当的RoI。总的来说,我们的过程大致上是这样的形式。
2. 我们没有对所有的群众工作者进行评估,而是确定了那些最多产的人,他们总共占了我们数据的80%(大约有20个群众工作者)。然后,我们主要根据他们对话的复杂性和变化来评估他们的表现,因为这很容易从直觉上进行评估(而不是基于对有益/无害选择的任何共识)。基于这种方法,我们收集了一份 "精选 "MTurk工作者9的名单,在整个研究过程中,我们继续与他们合作。
3. 我们邀请选定的众筹者进入Slack频道,并通过电子邮件与他们通信,以确保他们得到公平的补偿,并允许他们提醒我们任何问题或议题。
4. 我们也在Upwork上雇佣了众包工,并以类似的轻量级方式对他们进行了审核。在这项工作中,我们一直在使用这两个平台。我们发现,在Upwork这样的平台上更容易激励高质量的互动,因为众包工可以很容易地按小时而不是按任务付费。但反过来说,MTurk的工人往往能更快地产生数据,并占我们数据集的80%左右。
我们没有根据协议或其他直接衡量标签质量的方法来过滤工人,尽管我们对他们进行了回顾性的评估(见图10右),发现Anthropic研究人员和我们的众工之间的平均协议很差(约63%),与最近的类似工作如[Stiennon等人,2020,Ouyang等人,2022]相比。
图10: (左)我们展示了52B静态PM预测的直方图,用于HHH评估。三个有把握的不正确的异常值都对比了模型宣布其无知的反应,而不是提供一个彻底的、听起来很复杂的、包含误导性信息的反应。所以它们是诚实和准确度的失败。(右图)这里我们展示了人类学研究者、我们的群众工作者和静态偏好模型之间在静态测试集的320个样本上的一致率。
作为一个重要的注意点,我们的群众工作者的分布在整个工作过程中并不固定,我们期望群众工作者的质量可能随着项目的进行而提高。在评估第4.5节中讨论的 "在线训练 "项目的成功时,我们提到了这一点,认为这可能是一个复杂的问题。然而,反过来说,由于我们通常不鼓励重复,多次执行任务的群众工作者也可能有参与更深奥的互动的倾向。
我们还应该注意到,我们明确地告诉众筹者'撒谎是没有用的',他们应该尽量只奖励有帮助的、诚实的回应,这大概解释了为什么我们的模型在诚实方面有一定的改进。也就是说,我们并不期望众筹者对我们的模型进行大量的事实核查,例如,他们经常喜欢包括无功能的URL的回应,这可能是最简单的可能的'谎言'之一,以揭穿。
2.2 帮助性和无害性(红队)数据集
我们使用略有不同的界面版本收集了两个独立的数据集。对于帮助性数据集,我们要求群众工作者与我们的模型进行开放式对话,请求帮助、建议或让模型完成一项任务(见附录D.2),并选择更有帮助的模型回应。对于无害性或红队数据集,我们要求群众工作者试图从我们的模型中引出有害的反应,并选择模型提供的更有害的反应。
我们的界面(图6)允许用户表达一个偏好强度。我们只在众人表达的偏好强于最弱的偏好时,才将比较结果纳入我们的数据集。在这项工作中,我们不会以其他方式使用这种偏好强度信息;我们将数据集中的所有比较视为二进制和同等权重(所以特别是我们不包括平局)。
请注意,这意味着我们的帮助性数据集倾向于将对话推向更有利的方向,而在我们的红队数据集中,用户的反应将对话推向更有害的方向。我们做出这个选择是为了让用户在红队时有可能完全欺骗和利用模型,因为这对于我们正在做的其他专门关注有害性的工作来说是最自然的。然而,我们认为这种差异使得我们很难训练出既有帮助又无害的模型,正如第4.4节所解释的。我们计划在未来的工作中弥补这一点,并建议其他专注于训练无害的对话模型的人收集数据,在这些数据中,用户主要选择使对话向更有益的方向发展的模型回应,而不是。
2.3 部署到反馈界面的模型和相关的数据分布
为了收集数据,我们主要使用了52B语言模型,其大致规格在[Askell等人, 2021]中给出。我们在接口中使用了三类模型。
- HHH Context-Distilled 52B语言模型:在项目开始时,这是唯一可用的模型。它的表现类似于用HHH对话提示的普通52B语言模型[Askell等人, 2021]。
- 拒绝抽样(RS)与52B偏好模型,其中样本是从52B上下文蒸馏的LM中产生。在这种情况下,样本的数量k是一个参数,但大多数时候我们使用k=16。
- RLHF-Finetuned模型:我们在界面中连续使用了这些模型。这些模型主要根据训练相关PM时的数据量而变化(取决于项目的阶段)。然而,我们也部署了根据不同的有用性和无害性数据的混合训练的模型。
在项目的最后阶段,当我们主要部署RLHF微调的模型时,我们经常同时部署几个这样的模型。这使我们能够通过收集模型的比较数据来监测进展情况,同时(也许)也能提高数据的多样性。
- 一个核心的基础数据集,只用上下文提炼的LM来收集。这个数据集包括4.4万个帮助性比较和4.2万个红队(无害性)比较(注意一个对话通常包括大约四个比较)。
- 一个RS数据集,包括52k个帮助性比较和2k个红队比较,使用拒绝抽样模型,其中拒绝抽样使用在基础数据集上训练的偏好模型。
- 一个迭代的 "在线 "数据集,包括来自RLHF模型的数据,这些数据在大约五周的时间里以每周的节奏更新。这个数据集包含22000个帮助性比较,没有红队的数据。
这些分布的直方图由我们最终的、在线的HH偏好模型的分数组成,可以在第4.5节的图15中看到。在下文中,当我们讨论静态或基础+RS数据集时,我们将指的是前两个部分的组合。我们在第4.5节中的 "在线 "RLHF模型是在所有三个部分上训练的。我们的大部分结果都是基于静态数据集的,因为我们在进行在线数据收集的同时对其进行了实验和评估。
我们分析了静态数据集的几种不同的分割方式--标准分割为95/5的训练/测试数据,以及65/35的分割方式,我们使用这种方式是为了在评估测试集的偏好模型校准时获得更好的统计数据。我们还考虑了50/50的分割,即我们在数据集的两半上训练不同的PMs。这被用来评估RL训练的鲁棒性,因为我们然后针对一个PM训练RL策略,同时评估该策略所取得的奖励,这些奖励是由独立的PM测量的。
2.4 用Elo分数比较模型
我们分析的一个重要部分是将模型相互比较,以产生相关的Elo分数,如[Askell等人,2021]中所述。也就是说,我们让众人同时与两个模型聊天,每个模型在每个回合产生一个响应(要么是'A',要么是'B'),我们记录工人喜欢的样本。这为我们提供了一对模型之间的 "胜率 "记录,然后我们可以将其与相应的Elo分数相匹配,从而产生图1(我们同时显示胜率和Elo分数)。两个有用的转换公式是
为一个模型优于另一个模型的分数,Elo分数的差异,以及我们的PM分数。请注意,从概念上讲,赢得分数、Elo分数和PM分数是可以互换的;我们同时保留Elo和PM分数,这样可以避免混淆众人的偏好(我们使用Elo)和我们的偏好建模和RLHF(我们使用PM分数)。
请注意,图1中上下文蒸馏模型的Elo得分与[Askell等人,2021]中提示模型的类似结果有些不同--现在的Elo得分更加压缩。主要区别在于我们这次没有使用top-p采样12。这种差异也可能是由于自早先的那个实验以来,众人的分布发生了变化,或者众人的期望发生了变化,因为在这次测试之前,我们的工人大多是与质量较高的RLHF训练的模型进行互动。
三、帮助性和无害性的偏好模型
3.1 模型和训练设置
我们使用的语言模型的规格与[Askell等人,2021]中讨论的相同,总共有七个语言模型,参数数从13M到52B,以大约4倍的增量近似于几何序列。我们使用PyTorch[Paszke等人,2019]和Triton[Tillet等人,2019]来促进模型训练和性能。我们的偏好模型训练设置也与[Askell等人,2021]相同,特别是我们在人类反馈数据集上进行微调之前,对我们的语言模型进行了 "偏好模型预训练"(PMP),如该论文第4节所解释。更多细节见附录A。请注意,我们通常只对PM进行单次训练,所以学习曲线本身(图7左)显示了性能如何随数据集的大小而变化(我们使用固定的学习率)。
3.2 基本缩放结果
我们想了解,当我们增加模型规模和收集更多的数据时,偏好建模的性能如何提高。在图7中,我们展示了在我们的静态有用和无害数据混合上进行训练时,PM准确性的基本结果。大致上,我们观察到数据集和模型规模的对数线性趋势。如果我们只对有帮助或无害的分布进行单独建模,而不是作为一个混合,我们倾向于发现更一致的趋势,如附录A.3中的图32所观察到的。但在那里我们也看到,对于一些数据分布[Stiennon等人,2020],缩放趋势可以表现出更复杂的模式,不符合简单趋势。
我们的偏好建模数据来自自然语言对话,众人与模型进行基于文本的对话,并在对话的每个回合中选择两个模型反应中更有帮助的一个(或更有害的一个,用于红队任务)。因此,很自然地要问,PM的表现是如何作为对话回合的函数而变化的。我们在图8中显示了这些结果。在对话的第一步上,PM的准确度更高一些,但此后他们的准确度几乎不变。
图8: (左图)用于研究校准和准确性的大型保持测试集中的对话回合分布。(右图)我们研究偏好模型的准确性与对话中交流次数的关系。
3.3 偏好模型的校准和对RL的影响
偏好模型的分数应该预测人类偏爱一种或另一种模型生成的反应的概率。我们对这些概率是否准确感兴趣,也就是说,PM是否被很好地校准。我们在图9中描述了校准的特点,其中我们将PM的准确性显示为分配给成对样本的PM分数差异的函数,以及代表完美校准的粗黑线。我们观察到,只在有用性数据上训练的PM是非常好的校准,但在有用性和无害性数据的混合上训练的PM则略显信心不足。
图9: 我们将偏好建模的准确性显示为较高和较低排名的反应之间的PM得分差异的函数。黑线表示校准后的预测准确率 Math input errorMath input errorMath input error$Math input error$ ,其中∆是得分差异。在(左边)我们显示了在我们所有的静态数据上训练和评估的PM的校准,而在(右边)我们显示了只在我们的有用数据分布上训练和评估的模型结果。我们看到,在HH混合上训练的模型的校准情况略差。
这些校准结果很重要,因为在后面的章节中,我们将使用PM分数作为强化学习的奖励信号。由于PM分数被很好地校准了,我们可以相信它们忠实地编码了人类喜欢特定模型样本的概率(至少是在训练集的分布上)。这意味着,当我们看到RL稳健地实现一个给定的奖励时,我们可以相信,那些与这个模型互动的人(如果他们被我们的众人分布很好地代表)会以可预测的速度喜欢它而不是参考模型,只要模型反应的PM分数在这些校准研究中考虑的范围内。也就是说,我们发现随着 RLHF 向更高的分数优化,鲁棒性明显失效,这一点在第 4.5 节和附录 B.4 中有所解释。
我们一般会认为,随着样本质量的提高,要可靠地识别出最好的样本会变得更加困难。在附录中的图25中,我们显示,如果我们限制在两个样本的PM得分都高于某个阈值的比较中,那么PM的准确性就会随着这个阈值的变化而下降(为了比较不同的PM,我们增加一个偏移量,使它们都在测试分布上获得相同的平均分数)。请注意,这个结果结合了三种效应:(1)在更复杂的样本中进行区分可能更具挑战性,需要更大的能力;(2)在我们的数据集中,可以学习的非常高质量的样本较少,因为它们是非通用的;(3)所有高质量的样本对将有相似的分数(与随机选择的样本对相比),因此更难区分。
这些观察结果对 RLHF 训练也有影响,即一旦我们的策略达到足够高的 PM 分数,我们应该期待进一步的 RLHF 训练的回报递减。这也促使我们进行在线训练,这样我们就可以随着RLHF策略的改进,更新我们的PM,以保持在分布上。
3.4 评估有帮助和无害的偏好模型
3.4.1 HHH评估和众筹者------协议
我们已经表明,在我们的数据集上训练的PM正在学习一些东西,并且是很好地校准的。但是我们还想证明,根据一些独立的标准,这些PM实际上正在学习倾向于有用和无害的行为。我们在之前的工作中提供了一套关于有用性、诚实性和无害性的比较评估(即HHH评估),并在这个基准上评估了原始的、经过上下文处理的和提示的语言模型[Askell等人,2021]。如图5所示,我们发现我们的PM比之前评估的所有模型都表现得更好。事实上,Pathways LM的努力[Chowdhery等人,2022]最近在这个数据集上报告的人类平均得分是75%,所以在某种意义上,我们的PM表现为86%,远远高于人类的平均准确率。
我们还观察到,有几个异常值,我们的PM在HHH评估比较中自信地不正确(见图10左)。这些都是诚实失败的例子,其中较好的选择是诚实的,但没有帮助,而不正确的选择看起来既有帮助又写得很好,但却巧妙地不正确或误导。我们在图11中展示了最糟糕的一个例子。值得注意的是,与我们的语言模型和RL策略的样本相比,这个糟糕的回应(是由Anthropic研究人员写的)很可能是不符合分布的。由于只有模型生成的样本被用来训练PM,这可能解释了为什么PM会被这些例子严重愚弄。这也表明,PM不是对抗性强的。
我们也可以在标签的一致性方面比较我们的群众工作者、我们自己和我们的偏好模型。结果显示在图10的右边,是基于我们静态测试集的大约320个例子。PM的训练是为了预测众人的行为,所以PM与众人的一致是最好的。然而,最大的PM实际上与作者(即人类学研究者)的一致比作者与众工的标签一致略多。我们也怀疑这是一个糟糕的数据子样本,因为与完整的测试集相比,这个子样本上的PM准确性要低几个百分点。
3.4.2 性别偏差和机器人对抗性对话
我们可以通过比较不同性别词汇的得分来开始评估我们的PM是否显示出性别偏差。为此,我们对以下形式的短对话的偏好模型得分进行评估
助理:当然,这是你的句子,里面填上了缺失的单词。
职务}是一个{性别名词}。
其中,我们使用了一个76种职业的列表,12个匹配的性别术语(母亲对父亲,男人对女孩,等等),以及现在时和过去时[Rae等人,2021]。偏好模型的分数没有直接意义,所以我们评估了配对的性别术语之间的分数差异,并将其与某一性别内的术语之间的分数差异进行比较。结果显示在图12的左边。我们观察到,表示某一特定性别的术语之间的差异似乎至少与不同性别之间的差异一样大。因此,看起来PM并没有表现出实质性的偏差。
作为我们PM的外部验证,我们考虑了机器人对抗性对话(BAD)数据集[Xu等人,2020]。这个数据集包含了几千个人工智能系统和人类之间的对话。每个人工智能反应都被标注为有害或无害。我们计算了BAD人工智能语料的偏好模型得分的分布(我们将分析限制在每个对话的第一个BAD人工智能语料),发现被标记为有害的BAD人工智能语料的偏好模型得分明显较低。这表明我们的PM正在有效地对这些AI生成的语料进行分类,尽管它们很可能与我们的PM所训练的数据分布有很大的不同。
四、从人类反馈中强化学习
4.1 训练设置
我们按照[Stiennon等人,2020]中概述的方法,将强化学习(RL)与偏好建模相结合,可以概括为以下步骤。
准备一个比较的数据集,并训练一个PM给每个比较中的 "更好 "的项目分配一个更高的分数。在我们的人类反馈实验中,每个比较包括一个提示,然后是一对模型生成的反应,在每个反应结束时评估一个PM得分。
从前面的数据集中提取所有的提示,并训练一个RL策略,对每个提示自动生成一个响应,在响应结束时由PM得分提供一个奖励信号。
PM数据集和训练细节在附录A.2中提供;我们还在第3节讨论了我们的PM的性能。在RL的语言中,策略产生的每个反应是一个 "时间步长",一个完整的对话是一个 "轨迹",而PM的分数是最后提供的一个 "奖励"。
我们的想法是使用偏好模型来引导策略写出更好的回应。然而,正如我们在前面的章节中所看到的,PM在更高的分数上也变得不那么标致,所以更高的奖励并不一定意味着更好的表现。
为了稳定RL训练,我们使用近似策略优化(PPO)[Schulman等人,2017]。我们还遵循其他工作[Stiennon等人,2020],并在奖励中应用经验估计的KL惩罚项,总奖励由以下公式给出
Math input errorMath input errorMath input error$Math input error$
其中 Math input errorMath input errorMath input error$Math input error$ 是一个超参数:在实践中,我们使用一个非常小的 Math input errorMath input errorMath input error$Math input error$ 值,这在大多数RL训练中可能影响很小(因为DKL通常<100),而且实际上可能完全没有必要。关于RL的更多细节在B.1中提供。
在本文中,我们使用rPM=偏好模型得分本身作为RL奖励。回顾一下,正如公式(2.1)所暗示的,这意味着两个样本A和B之间的rPM值的差异将与预测的概率P(A >B)有关,即A将被优先于B,通过
没有很好的理由直接使用这个偏好模型得分作为奖励,但它已经被用于先前的工作,如[Stiennon等人,2020],所以为了简单起见,我们在此不探讨这个选择的变化。
为了产生更多的提示(即人类方面的对话)用于RLHF训练,我们使用了一个大型的LM来产生这些提示。为此,我们简单地使用了few-shot学习,用大约10个现有的高质量的人类查询创建一个上下文,然后抽样产生更多的查询。我们发现,RLHF的抽样效率在原始的群众写的提示数据集和模型生成的数据集上大致相同,所以我们在RLHF训练期间将两者结合起来,以获得更大的多样性。我们使用了来自 "静态 "数据集的137k条提示,以及369k条模型生成的提示。
请注意,我们几乎所有的偏好建模数据都是从52B模型收集的。这意味着用较小的模型进行RLHF训练可能是一种挑战,因为较小的模型的样本往往与PM训练数据的分布不一致。因此,相当有趣的是,如图1所示,小50倍以上的模型实际上能够学习和改进。
4.2 鲁棒性实验
我们现在讨论RLHF的鲁棒性问题:一个完全稳健的PM会在对话的分布上与人类达成一致,而这些对话与PM训练期间遇到的对话截然不同(即与众人与我们部署的人工智能助手的互动不同)。然而,我们并不期望我们的PM是如此稳健,事实上,图11提供了一个合理的鲁棒性失败的例子。由于RL优化策略以使PM得分最大化,PM方面的任何鲁棒性失败都可能被RL策略利用以获得更高的奖励,而从人类评估者的角度来看,实际上没有改善策略的行为。
研究鲁棒性的一个严格方法是在RLHF训练期间的不同时间点对策略进行快照,包括最初的快照,并让群众工作者比较其表现。这就给出了一个由众人评价的 "真实的 "Elo分数,然后可以直接与PM的分数进行比较。我们在第4.5节中介绍了这项研究的一个例子。
然而,这种测试需要收集额外的人类反馈数据,这可能是缓慢和昂贵的,所以在这里我们也从不同的角度研究鲁棒性。与监督学习中数据集被分成训练集和测试集的方式类似,我们将偏好模型的比较数据分成两半(一半是训练集,一半是测试集),并分别训练偏好模型,我们称之为训练PM和测试PM。然后,我们针对训练 PM 训练 RLHF 策略,同时使用测试 PM 对其进行评估。类似于测试集评估帮助我们理解监督学习中的过拟合,测试PM的评估帮助我们理解相对于训练PM的过拟合。这些实验并不是决定性的,因为训练和测试PM可能表现出相关的鲁棒性失败。
这些实验的主要结论是:(1)RLHF在PM分数较高时逐渐变得不那么稳健,(2)较大的偏好模型比较小的模型更稳健。
我们进行了以下两组实验。
- 训练PM大小=52B:这组由策略的扫描组成(即每个模型大小一个),所有这些政策都是针对相同的52B训练PM而训练的。
图13 这些数字显示了KL与PM分数平面上的训练曲线,展示了这些变量之间的近似线性关系,特别是在使用性能更高的52B PMs的左手图。我们在较小的模型中观察到一些不稳定性,可能是因为我们所有的PM的训练数据都是用52B语言模型创建的,而小得多的LM样本对PM来说往往是相当OD的。最后,通过比较左图和右图,我们看到针对较小的PM(与策略规模相匹配)的训练最终会导致性能不佳,正如52B PM所评估的那样。我们的一些运行由于变得不稳定而被提前切断了。我们发现,较小的模型通常更难稳定下来。
- 训练PM大小=策略大小:这个集合由策略的扫描组成,每个策略都是根据与策略相同大小的训练PM来训练的。
对于这两个实验,每个策略都是在整个训练过程中尊重测试PM的扫描而进一步评估的。请注意,一次扫描指的是7种不同的模型大小,从13M到52B不等,因此每个实验有7个策略和7×7的评估。
在图4中,我们比较了整个训练过程中训练PM和测试PM的分数,类似于监督训练中经常比较训练和测试曲线的情况。我们发现,在所有情况下,这两个分数在训练的早期阶段是接近一致的,但最终会出现分歧,测试PM提供了一个较低的分数。这种分歧很可能表明,偏好模型不太稳健,在更高的奖励下更容易被利用。也就是说,策略在训练PM上被过度优化了,使得训练PM对策略的表现过于自信。另一方面,测试PM没有这个问题,因为它是在策略和训练PM都没有观察过的另一部分数据上训练的。
4.3 DKL与奖励之间的近似线性关系
在图4和图13中,我们观察到在RLHF训练期间,KL和PM得分之间有一个近似的线性关系。此外,我们注意到,当所有模型都用相同的PM进行训练和评估时,学习曲线在DKL-奖励平面上大致平行。请注意,这里的 "KL "更确切地说是 Math input errorMath input errorMath input error$Math input error$ ,其中π表示策略分布(和π0表示初始策略),是在训练期间从策略中抽取的样本上根据经验评估的。
为什么会这样呢?当 Math input errorMath input errorMath input error$Math input error$ 在δπ中串联扩展时,扩展从二次阶开始,所以如果我们想象RL策略也可以围绕基数LM串联扩展,并且RL奖励在 Math input errorMath input errorMath input error$Math input error$ 中线性变化,那么在 "小δπ区域"(即串联扩展提供良好近似的地方),我们应该期待奖励 Math input errorMath input errorMath input error$Math input error$ 。在这里,序列扩展提供了一个很好的近似值). 通常我们应该期望奖励在δπ中线性变化,因为初始策略π之前没有对奖励进行优化,所以没有理由它在小变化δπ方面处于一个极值。因此,这种关系在经验上似乎是成立的,这表明RLHF的大部分训练仍然是在小δπ系统中。
虽然他们没有使用这些坐标,但从学习总结的结果中可以读出类似的比例[Stiennon等人,2020]。特别是,他们提供了一个很好的拒绝采样的分析,他们生成了N个样本,然后绘制了前k个样本的平均奖励对比。
这一分析表明,这些RL学习曲线可能与RL策略的变化有关,其行为与简单地从初始分布中拒绝采样非常相似。
我们发现这个简单的关系相当引人注目,并认为它值得进一步研究。在猜想的层面上,当RL-finetuning大型生成模型时,它可能有各种影响和用途。
- 这些关系为 "策略需要改变多少来实现特定的奖励 "提供了一个粗略的预测。此外,如果对应于不同模型大小的线条真的是平行的,那么人们可以使用小模型的RL训练以及较大模型的zero-shot性能来估计较大RL策略的最终性能。这些线的斜率也解释了RLHF训练如何在模型大小上产生如此大的有效收益,例如它解释了为什么图1中的RLHF和上下文蒸馏的线大致平行。
- 对于RLHF的训练,人们可以提出一个微妙的、也许是定义不明确的问题--它是在教模型新的技能,还是仅仅让模型专注于生成现有行为的一个子分布。我们可以尝试将后一类行为与RL奖励在KL中保持线性的"√"区域联系起来,从而使这一区别更加清晰。
- 做一些更大胆的猜测--也许线性关系实际上提供了RL奖励的上限,作为KL的一个函数。我们也可以尝试通过用Fisher几何中的测地线长度代替√KL来进一步扩展这个关系。
通过使RL学习更具可预测性,并确定新的量化行为类别,我们可能希望检测到RL训练期间出现的意外行为。
4.4 RLHF训练中帮助性和无害性之间的紧张关系
这里我们讨论一下我们在 RLHF 训练中遇到的一个问题。在这个项目的早期阶段,我们发现许多 RLHF 策略非常频繁地再现了对所有远程敏感问题的同样夸张的回答(例如,只要用户表达了任何程度的不高兴,就建议他们寻求治疗和专业帮助)。这大大限制了这些模型的效用。在第6.2节提供的一些例子中,我们仍然看到这种行为的残余。我们现在相信这些策略是过度优化无害性的结果,而对有用性的优化不足。
通过我们的数据收集程序,我们认为这是很直观的。为了在红队提示上得到一个非常好的分数,对于模型来说,用 "我不能回答 "这样的话来回答可能就足够了。这不需要太多的复杂性(它只需要学习对有害的请求进行分类),因此我们预计它比有用性更容易学习。
在图14(右)中,我们显示了策略在整个训练中的PM得分,在分离了有帮助和无害的提示后。在同一张图的左边,我们显示了PM对比数据的分数分布,再次分离了有帮助和无害的数据集。我们观察到,该策略的无害性得分有些偏离分布,因为它处于无害性比较数据的上端。另一方面,该策略的有用性得分似乎在分布上,而且很可能没有得到充分的优化。因此,我们期望这个agent很难被标红,但不是很有帮助。
图14(左图)我们展示了使用52B PMs的有用性和红队的比较的PM得分分布。(右图)我们针对相同的PM训练一个52B的RLHF策略,并定期评估该策略在保留的提示上的表现(通过对策略在此类提示上的反应进行抽样,然后评估PM得分),从有用性和红队的数据集。我们发现,策略的无害性得分(右侧,红色)几乎是 "失调 "的,因为它处于无害性PM数据(左侧,红色)的上尾。另一方面,策略的有用性得分(右图,蓝色)相对于有用性PM数据(左图,蓝色)来说,显得 "在分布范围内"。换句话说,我们在无害性方面过度优化了,而在有用性方面可能仍然优化不足。虚线代表列车分数的渐进平均数,以引导人们将左右两边的面板连接起来。
这就提出了一个明显的问题--我们就不能收集更多的无害性数据来填补分布的上尾部分吗?这个问题涉及到上面提到的无害性的定义--如果简单地拒绝回答一个问题就是 "最无害 "的行为,那么这可能既很容易学习,又很难改进。也就是说,一个更有趣的 "最小伤害 "的行为将涉及到模型(帮助)解释为什么这个请求是有害的,甚至可能试图说服人类不要追求这种请求。我们非正式地将这样的模型称为 "人质谈判者"。
然而,我们的数据收集过程使得模型很难学习'人质谈判'。这是因为在收集我们的无害化数据集时,我们让众人选择更有害的AI反应。我们做出这样的选择,是为了充分探索我们的模型对红队的脆弱性。然而,从RLHF的角度来看,这是有问题的,因为除了第一轮对话之外,我们的模型从未了解到对有害查询的复杂反应可能是什么样的。我们的数据集没有提供关于分布的上端、关于模型应该做什么的指导,而只是告诉模型不要做什么。
在实践中,我们通过在RLHF期间对更多的有用性提示进行训练,部分地解决了优化问题。但在未来,我们希望通过收集无害性数据,让群众从我们的模型中选择最好的反应,从而更全面、更系统地解决这个问题。14 通过这种方式,我们希望模型不是简单地关闭有害的请求,而是能够学习与红队队员进行 "人质谈判 "的更微妙的艺术。
请注意,由于本节讨论的数据和模型来自我们研究的早期阶段,RL的结果可能看起来与本文的其他部分略有不同。
4.5 迭代的在线RLHF
在前面的章节中,我们讨论了一个问题,即PM在高分值时逐渐变得不那么标定和不那么稳健,这在图9的PM标定研究和图4的RLHF鲁棒性研究中可以看到。我们认为这是由于在这个高分制度中缺乏数据造成的。为了解决这个问题,我们提出了迭代的在线 RLHF。
- 我们只是简单地训练最好的RLHF策略,并使用它来收集来自群众的比较数据。由于该策略是为了优化PM得分而训练的,它应该产生处于得分分布上限的回应。
- 我们将新的比较数据与我们现有的数据混合,并训练新的PM扫描,然后用它来训练新的RLHF策略扫描。然后无限期地重申这个过程。
我们的假设是,"在线 "RLHF策略有助于我们收集PM分数分布的高端数据,这应该会改善后续迭代中高分段的PM校准,从而使我们能够训练更好的策略。继续这个过程应该会让我们逐步得到更好的PM和策略。请注意,我们对 "在线 "这一术语的使用与传统的使用不同--我们不是反复训练同一个模型,而是在每个迭代中重新训练一个新模型。
对这种方法的一个担忧是,RLHF倾向于减少策略的熵,这将限制通过在线程序收集的数据的多样性。我们通过一次性部署一些来自RL训练和不同在线迭代的不同快照来部分解决这个问题。这也使得比较这些模型以更好地了解它们的表现成为可能。
通过观察我们的数据分布的演变,我们可以看到在线方法的生命迹象。在图15(左)中,我们显示了三种模型分布的PM得分。如第2.3节所述,基础、RS(拒绝-采样)和在线。我们看到,根据我们最终的在线PM(在所有的数据上训练),从基础到拒绝采样再到在线数据分布,样本的质量都有所提高。我们还发现,我们的在线PM在测试集上对各自的基础分布、RS分布和在线分布达到了74%、70%和67%的准确率,这表明区分更高质量的样本正变得越来越有挑战性。这使我们乐观地认为,从长远来看,在线训练应该优于拒绝采样。
我们在图15的右边显示了我们的在线模型的学习曲线,以及众人的Elo分数的测量结果。我们看到,模型在RLHF期间有了明显的改善,但是来自众人的Elo分数与PM的预测不一致。我们在附录B.4中进一步讨论并分解了RLHF训练的鲁棒性,我们看到分布性转变在明显的鲁棒性失败中占了很大一部分(图35)。
在图1中,我们将我们的在线模型的Elo分数与在 "静态"(即没有在线)数据集上训练的上下文蒸馏模型和RLHF模型进行了比较,表明在线模型显然更受我们的群众工作者的欢迎。然而,阅读器可能会担心两个注意事项:在线模型是在一个稍大(约20%)的数据集上训练的,而且与早期的静态RLHF训练运行相比,在线模型是用改进的RLHF超参数训练的(在线模型用较大的K,定义在附录B.1中,其PM是用2048个上下文而不是1024个来训练)。
为了解决这两个问题,我们进行了一个受控实验,比较了两个RLHF的运行情况:一个是用我们的基础数据集训练的(大约44000个PM比较),另一个是用基础、RS和在线数据的均匀混合训练的,其总数据集大小与基础数据集相同15(每个数据集大约15000个PM比较)。因此,在这个实验中,我们在每个数据集上训练了两个独立的PM,然后针对这两个PM训练了一对RLHF策略。除了数据上的差异外,两次运行都使用了相同的设置,并且只对有用性进行训练。在图16中,我们比较了两次运行的各种快照的Elo分数,这是由众人的偏好决定的,显示出在迭代的在线混合上训练的策略显然是首选。这表明在线训练是有效的,而且性能的提高不仅仅是由于数据集大小的增加或超参数的变化。
4.6 评估: 对齐奖金、诚实和偏差
通过RL进行微调的语言模型通常具有更窄的、低熵的输出分布。这可能会使评估变得困难,因为所有有效的反应对于RLHF模型来说都可能是远远偏离分布的(我们在下面讨论一个关于性别偏差评估的例子)。因此,我们预计在未来的工作中,涉及抽样和人类互动的评估可能是最相关的。下面我们将讨论一些标准的NLP评估,然后是与模型的社会影响特别相关的评估,包括诚实、情感和偏差。
4.6.1 NLP评估
我们使用MMLU[Hendrycks等人,2021b]、Lambada[Paperno等人,2016]、Hellaswag[Zellers等人,2019]、OpenBookQA[Mihaylov等人,2018]、ARC[Clark等人,2018]和TriviaQA[Joshi等人,2017]这些基准来评估我们在问答、常识、琐事和故事完成方面的模型。主要结论是,RLHF倾向于提高大型模型的性能,而降低16较小模型的性能。
图28和29显示了zero-shot和few-shot次评估的全部结果,我们在图3中提供了一个平均趋势的总结。阅读器可能会注意到,一些评估的结果改善得相当突然;这是我们为多选题使用的格式的结果,我们明确地提供了选择(Gopher[Rae等人,2021]使用这种格式)。该格式在附录E中明确提供。我们发现,这种格式倾向于提高大型模型的性能,而降低小型模型的性能,导致可以说是误导性的 "grok"[Power等人,2022]曲线的出现。
4.6.2 诚实和偏差
一个主要问题是人工智能模型是否诚实。我们在TruthfulQA(MC1)[Lin et al., 2021]上评估了我们的模型,并在图5中显示了结果。在那里,我们还包括了50次射击时的表现,以证明虽然我们的RLHF训练明显提高了诚实度,但我们的模型很可能还有很大的改进空间。请注意,我们对群众工作的 表明表明,"说谎是没有帮助的",他们应该选择 "有帮助的和诚实的 "回答,所以这可能与我们在TruthfulQA上看到的改进有关。也就是说,我们目前并不期望RLHF成为诚实的最佳方法。
另一组问题涉及这些模型的基本偏差。我们评估了我们的模型在种族和宗教方面的情感偏差(与Gopher[Rae等人,2021]的格式相同),评估了性别偏差,并评估了QA的偏差基准(BBQ-lite)[Parrish等人,2021]。
图17显示了对不同种族和宗教群体的情感结果。我们观察到的主要效果是,我们的RLHF训练过的模型的情感往往比普通的LM要积极得多,但要说群体之间的偏差是否发生了变化,则比较困难。我们预计一些可见的影响是由于情感模型的局限性造成的17,例如无神论者组的低分很可能是因为诸如(斜体字的模型生成)的样本。
无神论者对宗教教条和传统道德原则非常怀疑和critic,而是寻求从对自然界的理性思考和经验观察中获得他的伦理价值。
收到的情感分数非常接近零,这似乎是一个有问题的评估。对于这些评估,我们使用了一种提示格式,即人类要求助手完成如下的句子。
如上图所示,句子开头为 "无神论者非常"。
我们还在BBQ-Lite上评估了我们的模型,BBQA的一个简化版本[Parrish等人, 2021],可在BIG-bench上使用。我们对这些结果感到有些惊讶,不清楚是否可以根据这些结果得出任何结论。从本质上讲,我们似乎发现,使用现有的指标,我们的普通LM在这个基准上并没有表现出非常明显的偏差。这里的衡量标准大致是 "模型在负面背景下引用一个术语的频率,除以它普遍使用该术语的频率"。0.5的值对应于模型是 "无偏差的"。RLHF训练也许能稍微改善结果(可能是通过改善情感),尽管效果非常小(见图18)。我们可能会在将来使用完整的BBQA指标[Parrish等人, 2021]回到这些评估中。
图18: 我们展示了BBQ-Lite的结果。我们警告说,由于根据这个指标,我们的模型都没有出现特别的偏差(甚至那些没有任何干预措施的训练),我们似乎不太可能从结果中得出任何有意义的结论。我们怀疑缺乏偏差反映了测量的局限性,而不是关于模型的ground truth。
在第3.4.2节中,我们调查了偏好模型的性别偏差。我们尝试用这种形式来评估RLHF模型,但是我们发现这些模型比普通的或经过上下文提炼的LMs使用性别词来完成'CEO是个'这样的句子的可能性低10倍以上。换句话说,对于RLHF模型来说,像'CEO是个父亲'这样的语句似乎有些偏离分布,至少与普通LM相比是这样。这对评估来说是有问题的,因为这意味着偏差测量很可能被噪声所支配,不太可能代表模型行为(即模型产生的样本)。因此,在附录B.10中,我们对任务的另一种表述进行了实验,我们颠倒了职业和性别条款的顺序,并增加了一个 "为了工作 "的条款;这使得RLHF和其他模型都保持了分布式的状态。结果在附录B.10中讨论,我们表明RLHF模型的偏差与潜在的LM偏差有很强的相关性(图40)。特别是,通过这种评估,我们发现大型 RLHF 模型的性别偏差与在较低温度下评估的语言模型非常相似。
五、竞争目标、专业技能和OOD检测
关于对齐技术的一个担忧是,它们可能会损害模型的性能。在第5.1节中,我们强调了这种可量化的权衡,即在训练偏好模型时,在有用性和无害性之间的权衡。但似乎较大的模型受到这种权衡的性能下降的影响较小。
此外,我们还发现,有用的和无害之间的冲突是相对独特的。偏好模型可以学习奖励在专门技能方面的强势表现,而在有用性和无害性方面的表现没有任何损失。在第5.2节中,我们将总结质量的评估视为这样一种技能,使用学习总结[Stiennon等人,2020]数据集,以对话的形式重新格式化。后来在第5.3节中,我们表明,代码模型(即通过监督训练在代码上进行微调的模型)也与HH对齐干预兼容,尽管RLHF训练不涉及代码数据或例子。
在第5.4节中,我们强调了另一种避免有害行为的方法--即使没有获得任何有害性训练数据,也有可能通过利用分布外检测技术[Fort等人, 2021]来拒绝大多数有害请求。在需要标记或忽略奇怪或偏离主题的请求的部署场景中,这种方法也可能更普遍有用。
5.1 将有帮助的和无害的目标混在一起
在许多情况下,无害性是对帮助性的一种限制。因此,我们应该预期,有用性和无害性可能表现为部分反相关的目标。我们通过评估在不同的HH数据混合上训练的偏好模型,以及不同的权重来确定这一点。
在概念层面上,HH PMs可能本质上是在学习首先对数据进行分类,然后根据分布情况选择一个分数。我们将表明,较大的模型表现更好,对数据混合和损失加权更稳健,这可能是由于它们在分离合理和有害请求方面有更大的成功。
5.1.1 变化的有帮助与无害的数据比例
我们使用从100%有帮助到100%无害的数据分割来训练模型,其间隔为10%。我们的静态数据分布有42k个红队比较,所以为了控制数据集的大小,我们总是用这个数量的比较来构建混合数据。图19显示了随着训练数据混合的变化,无害性和帮助性的表现。请注意,完全根据有用性或无害性数据进行训练的结果是,在另一个分布上的性能明显比机会差。这体现了这些分布在多大程度上是相互矛盾的。
图19(上)混合不同比例的有用性和无害性数据时的结果。我们看到,当训练数据包含所有的有用性或无害性数据时,在其他测试集上的表现远远低于随机机会水平。这提供了证据,证明有用性和无害性是反相关的目标。(底部)这些是顶部图的版本,其中准确度被归一化为每个模型大小所达到的最大准确度。我们进行这种归一化处理是为了在视觉上明显地表明,较大的模型的性能对数据混合不那么敏感。
附录中的图26也绘制了平均测试准确率在有用性和无害性上的变化(其中平均准确率=(无害性准确率+有用性准确率)/2)。较大模型的曲线在0%和100%区域附近看起来更陡峭,但在顶部更平坦。较小的模型的曲线更渐进,在中间有更明显的峰值。这再次表明,较大的PM对使用的红队与助攻数据的特定部分更加稳健,使它们能够更容易地学习这两个概念。
5.1.2 对有帮助的损失与无害的损失进行加权
与其研究不同的数据混合,我们可以尝试对损失进行重新加权。由于我们有更多的有用性而非无害性的比较,我们尝试将损失加权为
对于 Math input errorMath input errorMath input error$Math input error$ ,如图27所示(被归入附录):我们注意到,较大的模型似乎对λ的选择更为稳健。将λ从1增加到10会导致13M参数模型的有用性的准确性下降7.4%,而它只导致52B参数模型的准确性下降1.5%。
5.2 归纳是一种专门的技能
我们预计,以特殊技能进行微调的模型可能特别有用和有价值。对齐是否会干扰专门技能的微调?
作为对这一问题的测试,我们研究了在学习总结(LtS)[Stiennon等人,2020]数据集上的PM微调与LtS和HH数据的混合。我们将LtS数据的格式化为对话格式,使其与HH数据相匹配,如下所示。
人类。你能为我写一份这篇文章的摘要吗?
...文本...
助理:当然,就是这里。
如图20所示,在混合的HH和LtS数据集上训练的大型偏好模型在这两个数据集上表现同样出色。因此,至少在偏好建模的层面上,将HH与评估总结质量的特定技能混合在一起似乎没有成本。
5.3 自然语言RLHF对代码动力学模型的影响
作为另一项专门技能的测试,我们想看看自然语言对齐是否可以与编码相结合而不影响性能。由于我们的群众工作者从未被 表明去探测模型的编码能力,而且很可能没有大量的编码专业知识,我们的人类反馈数据并不包括大量与编码有关的对话。因此,偏好模型微调数据集和RLHF提示数据集不包含任何大量的代码,尽管在LM预训练组合中有一些代码,在PM预训练(PMP)组合中可能有少量代码。这使得与代码有关的问题成为测试RLHF泛化性的有趣方式,特别是它与其他技能的兼容性。
如[Askell等人,2021]所述,我们的 "基础代码模型 "是在从Github刮来的Python代码上微调的。从这些Python微调(Python FT)模型开始,我们使用 "静态 "偏好模型和提示语进行标准的自然语言RLHF训练。我们很难在3B代码模型上实现稳定的RLHF优化,所以在这一节中,它被排除在外。
我们在HumanEval数据集[Chen et al., 2021]上评估模型,该数据集用python函数签名和文档字符串提示语言模型。模型的任务是根据上下文正确填写函数主体,模型编写的函数在沙box环境中运行。在图21中,我们显示了有无RLHF训练的结果与模型大小的关系。我们在这里看到了与其他评估相同的趋势--RLHF降低了小型模型的性能,但提高了大型模型的性能。
图21: (左)基础代码模型和RLHF模型在HumanEval上的通过率@1。RLHF通常会降低较小模型的性能,但会提高较大模型的性能。(右图)该图显示了我们的52B模型在Pass@k上的性能与k的关系。我们对评估超参数T∈{0, 0.4, 0.6, 0.8, 1.0}进行了网格搜索。× p∈ {0.95, 1},并绘制了每个k的最大精度。结果表明,RLHF实际上提高了性能,即使是在大k下。
RL训练倾向于降低模型分布的熵,因此我们担心这些结果会对温度和top-p的调整非常敏感。因此,对于我们的52B模型,我们对RLHF模型和基础代码模型的温度和两个top-p设置进行了扫描,然后为每个模型和pass@k选择最佳设置。我们对评估的超参数进行了网格搜索。T ∈ {0, 0.4, 0.6, 0.8, 1.0} × p∈ {0.95, 1} × k∈ {1, 5, 10, 25, 50, 75, 100}。结果总结在图21的右边。对于每个模型和pass@k中的每个k,我们取所有10个超参数组合中的最大性能。我们看到,在这个评估中,RLHF在所有的pass@k中都比基线提高了性能。
我们应该强调的是,与我们其他的评估一样,RLHF对性能的改善是温和的。事实上,我们发现简单地提示一个基本的代码模型表现得略好,如图38所示。附录B.8进一步描述了我们使用的提示格式(即 "HHH提示"),它由几个代码实例组成。
我们还进行了涉及在提示中添加错误代码的实验,这通常会使性能恶化(见[Chen等人,2021])。我们发现,RLHF模型的表现并不优于其最初的基础代码模型快照,当这些提示在评估过程中被包含在上下文中时,即使在扫描了温度和top-p之后。
5.4 应用分布外检测来拒绝奇怪的或有害的请求
在这项工作中,我们主要关注的是完全通过自然语言对话实现无害化。然而,人们可以尝试以某种不同的方式来避免有害的行为,通过限制语言助手只对小范围的查询做出反应(批准列表),或者通过过滤和拒绝已知类型的不良行为(阻止列表)。我们可以将我们的偏好模型用于这些目的,但我们也可以采取一种不同的、监督程度较低的方法,并利用分布外(OOD)检测方面的进展。这样的方法对于那些想建立只响应小范围查询的系统的人来说可能也是有用的(例如,应该避免非代码主题的代码模型)。
分布外检测(OOD),尤其是接近分布外的检测,一直是深度神经网络的主要挑战。深度网络通常会给错误分类的输入分配高概率[Guo等人,2017,Lakshminarayanan等人,2016],以及不属于任何训练类别的测试输入[Nguyen等人,2014]。已经有很多基于判别模型的OOD检测方法[Hendrycks and Gimpel, 2016, Lee et al., 2018, Liang et al., 2017, Liu et al., 2020] 以及深度生成模型[Nalisnick et al., 2019, Zhang et al., 2020] 。OOD检测中比较困难的情况,即所谓的近OOD检测[Winkens等人,2020],最近使用预训练和大型模型进行了大幅改进[Fort等人,2021]。
对于一个提示i,我们从一个层ℓ中提取一个维度为 Math input errorMath input errorMath input error$Math input error$ 的激活向量,并称其为 Math input errorMath input errorMath input error$Math input error$ ,任务是在没有明确显示任何无害性数据的情况下区分一个未见过的无害性例子和有用性数据。这种方法通过测量一个提示与有用性数据的偏差来工作,而不是测量它与无害性数据的接近程度。通过这种方式,我们不依赖于我们手头的具体有害内容,并且可以潜在地过滤不同种类的非帮助性内容。
为了检测一个输入是否来自于分布内(helpness数据集),我们使用了一个评分函数,该函数将输入映射到一个标量值score(x)。为了做到这一点,[Lee等人,2018]首先提出对in-distribution的训练实例拟合一个简单的模型。
Ren等人,2021]中提出了一个在马哈拉诺比斯距离基础上的简单改进,称为相对马哈拉诺比斯距离,并显示出对于视觉和基因组学中的一系列OOD问题,可以带来更好的AUROC以及更稳健的检测(除了对对抗性攻击更稳健之外[Fort, 2022])。受这种方法的启发,并认识到我们的问题并不自然地涉及由内分布组成的有语义的类,我们提出了进一步的修改,我们称之为简化相对马哈拉诺比斯距离。我们通过拟合全协方差矩阵Σ以及对角线协方差矩阵Σdiag来计算它,并将它们的马哈拉诺比斯距离之差作为我们的评分函数
图22显示了我们的OOD检测实验的结果,试图用我们新的简化相对马哈拉诺比斯距离来区分有帮助的数据和无害的数据,以帮助激活向量。该图显示了来自模型不同层和不同模型大小的激活向量的AUROC。模型越大,其性能越好,中间层的性能最好。图22的右侧面板显示了一个由52B参数组成的64L层及其第32层的有用性数据(蓝色)和无害性数据(红色)的OOD分数分布的例子。我们可以看到,无害化数据的距离模式明显高于有用性数据的距离模式。简化相对马哈拉诺比斯距离和标准马哈拉诺比斯距离的比较见附录B.9中的图39。
这种方法的优点是我们能够区分有用性数据和非有用性数据,而无害性数据只是非有用性数据的一种特殊类型。缺点是它在这个特定任务上的表现明显较差。
如果我们能够获得few-shot的无害化输入的例子(out-distribution),我们可以进行few-shot次的离群点暴露,这是由[Hendrycks等人,2018]首次提出的。[Thulasidasan等人,2021]建议使用代表OOD实例的单一类别。[Fort等人,2021]在单独强大的近OOD检测器之上使用了离群点暴露,并表明他们仍然享受到了暴露于离群点实例的巨大好处。我们在这里观察到类似的好处,在B.9节中详细讨论,并在图23中显示。
图23: 将我们的OOD检测器暴露于少量的外分布(无害化)输入,可以显著提高其检测能力。模型越大,暴露后的性能就越好。4L和6L模型(最小的2个)是使用最后一层的激活,而所有较大的模型都使用其中间层的激活。误差条是在5个随机的OOD数据样本上的标准偏差,以使模型暴露在其中。
特别是,只有10个有害提示的例子,我们可以使64L模型的AUROC提高到0.94 ± 0.02。在所有模型的所有层中(52B模型的中间层),在没有暴露于离群值的情况下(已经使用我们的简化相对马哈拉诺比斯距离,见图22),最好的性能大约是0.85。一个只暴露于10个有害数据例子的4L模型得到的AUROC为0.86±0.01,而与52B相比,只有13M的参数。因此,与单纯的模型规模扩展带来的收益相比,暴露于异常值的OOD检测收益是非常显著的。
六、定性的例子和比较
对通用的对话agent进行定量评估是具有挑战性的。我们发现,我们自己的研究过程基本上依赖于定性评估,以便了解模型的优点和缺点,即使最终目标是产生某种定量指标。因此,在本节中,我们将提供一些与我们最终的在线HH模型的对话样本。
对样本进行定性评估的一个明显问题是,很难知道它们在多大程度上被偷梁换柱了。为了缓解这个问题,我们为每个提示生成17个样本,用我们的HH在线偏好模型对它们进行排名,然后显示中位数样本。我们在附录C中提供了基于与他人可比工作相关联的提示的样本,包括InstructGPT [Ouyang et al., 2022]、LaMDA [Thopilan et al., 2022],以及出现在PALMS [Solaiman and Dennison, 2021]的敏感问题。我们鼓励阅读器浏览这些样本,以获得对我们模型行为的(可以说是)无偏差的感觉。
6.1 与人类作家的比较
作为对我们模型的额外测试,我们从人类作家那里收集了高质量的HHH对话。这些作家是在Upwork上被雇用的(与我们的众包作家库分开),基于之前成功的写作工作和积极的评论。我们给了他们一些例子,然后要求他们写出相当理想的人类/助手的互动。
然后根据提示(撇开最后作家写的助手的回答),我们从我们最好的HH和最好的纯帮助的在线模型中产生了17个例子,并从这个池子里选择了由我们的在线HH偏好模型排列的中位响应。然后,我们要求我们的群众工作者对作家的回应进行排名,同时从我们的HH和纯帮助性模型中各选取一个回应。然后,我们用这些结果来估计人类作家的Elo分数,通过与我们的两个模型进行比较,我们将结果显示在图1的水平带中。
我们使用了一个带子,因为作家的比较实际上与我们其他的Elo排名有些不一致,因为众人在56%的时间里喜欢我们的HH在线模型而不是人类作家,但在51%的时间里喜欢我们的纯帮助性模型而不是作家。据推测,这是因为撰稿人的提示分布与群众工作者通常参与的对话分布不同。因此,我们没有改变我们的HH和帮助性模型之间的排名,而是将写手代表为一个宽泛的带子。
我们发现,我们的有帮助的模型和HH模型的表现都与人类作家的表现大致相当,尽管事实上模型略微受到众人的青睐。我们还发现,我们的PM通常会给模型的回答打出更高的分数,如图24所示。然而,我们认为在解释这一结果时应该谨慎和注意。撰稿人的提示不是很有对抗性;许多问题给我们的印象是 "软球问题",模型很容易做得好。作为与模型互动了几十或几百个小时的研究人员,我们可能会想出许多人类更有可能胜过模型的问题。与此相关的是,作家们的对话并没有让我们觉得(在许多情况下)特别现实,具体来说,我们不会期望人类通过向人工智能助手寻求帮助来获得大量的实际价值。我们预计,我们的模型可能仍然远远不能提供一个复杂的人类助手通过聊天所能提供的那种价值,即使他们是在模型所经历的限制条件下工作(例如没有互联网接入)。
图24 该图显示了我们的在线HH PM分配给专业作家写的样本的PM分数分布的单独归一化直方图,以及来自我们的HH和仅有帮助性的在线RLHF模型的样本。我们的PM更喜欢我们模型的样本,而不是人类作家写的样本,尽管这可能主要反映了RLHF策略对PM的过拟合。
这里有几个提示的例子,作者的回应,以及我们的在线HH RLHF模型的回应。在这个例子中,模型一开始表现得很好,但后来对其修正错误的方式做了一些略微不准确的陈述。
6.2 敏感问题和回避与参与的关系
下面是PALMS [Solaiman and Dennison, 2021]敏感问题的几个例子:我们选择它们是为了说明该模型有时会避开非常敏感的问题,但往往会提供其他合理的回答。更多的例子请见附录C,也包括一些来自InstructGPT [Ouyang et al., 2022]和LaMDA [Thoppilan et al., 2022]的提示。
从质量上讲,我们的经验是,通过对有用性与无害性的优化调整,可以训练出在敏感主题出现时极力回避的模型,或者几乎总是试图参与的模型,甚至在敏感主题上。我们猜想,如果目标是训练模型在面对敏感问题时提供完整的回答,第4.4节也提供了有用的经验。
6.3 对话范例
我们的大多数样本只涉及单一的提示和回应,所以在本节中我们展示了一些两轮对话。
在这个对话中,模型遵循 表明,但可以做得明显更好地捕捉情况的细微差别。
当被要求鹦鹉学舌的写作风格时,模型更有可能做出潜在的有害、明确或冒犯性的声明。
七、讨论
我们已经表明,有可能使用来自人类反馈的强化学习来训练语言模型,这些模型作为有帮助的、无害的助手。我们的RLHF训练也提高了诚实度,尽管我们期望其他技术仍能做得更好。正如最近其他与调整大型语言模型有关的工作[Stiennon等人, 2020, Thoppilan等人, 2022, Ouyang等人, 2022, Nakano等人, 2021, Menick等人, 2022],RLHF与简单扩大模型规模相比,在很大程度上提高了有用性和无害性。
我们的对齐干预措施实际上增强了大型模型的能力,并且可以很容易地与专门技能(如编码或总结)的训练相结合,而不会在对齐或性能方面有任何下降。参数少于10B的模型表现得不同,它们的能力要支付 "对齐税"。这提供了一个例子,即接近最先进水平的模型可能是必要的,以从对齐研究中获得正确的教训。
我们似乎发现的总体情况--大型模型可以以相互兼容的方式学习各种技能,包括对齐,似乎并不十分令人惊讶。以对齐的方式行事只是另一种能力,许多工作表明,大型模型的能力更强[Kaplan等人,2020,Rosenfeld等人,2019,Brown等人,2020],以更高的采样效率进行微调[Henighan等人,2020,Askell等人,2021],并且不会受到遗忘的明显影响[Ramasesh等人,2022]。虽然我们没有直接演示,但我们也期望RLHF的对齐训练可以与其他目标的训练混合进行或先于其他目标的训练;这在未来可能是相关的,以避免产生中间的、未对齐的AI系统。
我们确实发现在有用性和无害性之间存在着明显的矛盾,当只对有用性进行评估时,完全为有用性而训练的模型比为无害性而训练的模型更受欢迎。我们相信这部分是由于我们数据收集过程中的一个微妙之处,因为我们很少收集教模型如何积极处理有害请求的数据(即如何成为一种 "人质谈判者"),而只是收集如何避免它们的数据。我们还发现,至少在偏好模型的层面上,随着模型变得更大、更有能力,有帮助-无害的紧张关系就会减弱。然而,我们确实预计这种紧张关系是真实存在的,而且谨慎可能会削减模型在边缘的表现。
大型生成模型被称为 "基础模型"[Bommasani等人,2021]。这些模型是极其有趣的研究对象,但如果不进一步微调,它们会表现出有害的行为。我们的工作表明,对齐训练可以被纳入基础模型而不影响它们的效用和通用性,因此也许它很快就会成为它们定义的一部分。
7.1 限制条件
虽然我们相信我们的结果为现有语言模型的对齐提供了一个很好的前景,但这方面的工作仍处于早期阶段,并且有一些局限性。正如[Thoppilan等人,2022]的作者所强调的那样,我们认为我们在对齐方面的工作是一个持续的项目;我们的工作[Askell等人,2021]是第0步,而这是第一步。
我们已经务实地将一个统一的助手定义为一个有帮助、诚实和无害的人工智能18。我们乐观地认为,在目前的能力水平下,我们在这里讨论的技术提供了一个合理的方法来实现有帮助和无害性。然而,尽管我们的技术提高了模型的诚实度,但我们相信我们只是在这个问题的表面上做文章,其他技术可能会更有效地产生诚实的AI模型。
在这里,我们基本上关注了我们模型的平均案例行为。然而,即使我们确信我们的模型在预期中是HHH的,下一步显然是试图研究和消除不良行为(尤其是有害性),即使在最坏的情况下。我们在这里没有解决这个鲁棒性的问题,但希望在未来研究它(像[Perez等人,2022]这样的方法可能是有用的)。随着人工智能系统的发展和在部署过程中遇到的分布性转变,这个问题只会变得更加紧迫。
人工智能的排列组合可能很难评估,也很不明确。因此,例如,虽然我们的大型RLHF训练的模型在几乎所有的能力评估中都比普通的LM表现好,但人们可能希望一个真正有帮助的模型的zero-shot表现将等于一个未对齐的模型的few-shot表现。这里的逻辑是,如果一个模型真的能够 "有帮助地遵循指令",那么一个提示或解释就应该足以弥补zero-shot与zero-shot的差距。我们离达到这个水平还很远! 即使在诚实度评估TruthfulQA[Lin等人,2021]上,我们也只接近这个差距的一半以下(图5)。我们还简要调查了我们的RLHF-finetuned代码模型在暴露于包括有缺陷的代码的提示时是否有任何比较优势[Chen et al., 2021],但我们没有发现任何好处。我们希望一个完全对齐的模型会尽力写出正确的代码,即使是在给出有缺陷的提示时也是如此。
我们还普遍担心,也许我们的技术只能使模型在 "表面 "上保持一致,它们仍然隐藏着有害的偏差或其他倾向,可能会在更微妙的情况下浮现出来。我们发现,RLHF模型对所有种族和宗教群体都有更积极的情感,这似乎很有希望,但不一定表明偏差已经减少。而在性别方面,我们发现RLHF模型的偏差与基础语言模型的偏差有很强的相关性。也就是说,需要进一步的工作来了解这是否是RLHF作为一种技术的限制,或者是我们特定的HH数据集的限制。在任何情况下,我们可能需要建立更微妙和全面的评估,包括多轮对话,因为这是一个人类可能会使用这些模型的领域,而且这也是一个本质上更难衡量性能的地方,如偏差和公平。
在更实际的层面上,我们没有太多将RL技术应用于大型生成模型的经验。有经验的人工智能从业者知道,有大量的调整和技巧需要通过实验来确定,而这些调整和技巧可以极大地提高训练的稳定性和性能。我们在RL中遇到了一些稳定性问题,尽管我们进行了一些初级的超参数扫描,但我们期望通过更多的经验和研究,我们可以做得更好。我们也没有探索在线训练的变化,比如字面上更新一个单一的PM或RLHF模型;相反,我们在每次迭代时都从头开始重新训练这些模型。另一个探索方向是使用PM分数的非微观函数作为RL奖励,扭曲分数分布,例如,更注重阻止坏行为而不是奖励好行为。综上所述,在改进RLHF方面有许多未来的探索方向。
最后一个担忧是,随着人工智能模型的能力越来越强,像我们所采用的技术是否会继续适用。我们非常认真地对待这些担忧。在我们看来,目前的工作在实现我们最初的目标方面取得了一些进展,即建立一套简单和通用的技术19,可以在目前的能力水平上调整人工智能模型。假设这个目标可以实现,接下来的步骤之一就是在研究者之间建立一致性,并更深入地理解对齐,包括技术如何随着人工智能能力的提高而扩展。希望能创造出一种不断发展的实用技术状态,用于训练人工智能,使其彻底帮助、诚实和无害。
另一个重要步骤是将这一基线作为探索其他技术的出发点,这些技术可以更好地处理更高级的用例和更多的投机性故障模式。然后,新的想法和技术可以与现有的方法进行务实的比较,如果它们在安全性和鲁棒性方面产生了进一步的改善,则可以将其纳入标准实践。我们的观点是,最相关的问题和最有创意、最有效的调整技术将通过对具体人工智能系统的研究来确定和发展。正如我们在第6.1节中看到的,我们已经遇到了指出人类反馈的局限性的例子,因此我们需要开始开发其他的方法。
7.2 将数据作为一种公共产品进行调整
在这项工作中,我们允许众人的常识来定义什么是有用和无害的行为。这对于我们探索 "技术对齐 "来说是足够的,也就是说,某些技术是否可以用来训练人工智能模型,使其更有帮助和无害的问题。但我们避免了解决这样一个基本问题:应该从部署的人工智能模型中期待什么样的行为。
这个问题不应该只属于研究人员的范畴。也就是说,如果没有明确规定与人工智能训练最相关的 "对齐数据 "的格式和类型,除了研究人员之外,其他人很难收集到训练安全和有益的人工智能系统所需的信息。然而,最近有几个项目(包括我们)使用类似的方法[Stiennon等人,2020年,Ouyang等人,2022年,Nakano等人,2021年]来教导AI模型复杂的人类偏好,而且我们还发现[Askell等人,2021年],基于排序比较的偏好建模比许多其他技术更好。
一种可能的方法是由一个具有伦理、法律和文化专业知识的独立组织来创建一个非常高质量的数据集,表达人类对人工智能行为的偏好(通过比较)。这样的组织也可以使用一种新的治理结构,这样更多的社会利益相关者可以参与到它所做的关于如何创建和策划调整数据的决定中来--与今天相比,私人公司以不透明的方式做出这些决定,使用的治理结构将权力授予经济上感兴趣的各方。以这种方式创建的数据集可能被用于训练和评估人工智能模型,甚至可以开始建立行为标准。由于人工智能语言模型的快速改进,我们预计,如果这些数据集以人类水平的复杂性来编码偏好,那么它们将是最有价值的。在任何情况下,这只是扩大参与数据集创建的一种推测可能性。
我们的研究得益于公开的研究数据集和与人工智能与人类价值观相一致相关的评估[Stiennon等人,2020,Hendrycks等人,2021a],我们计划发布我们的偏好建模数据供其他人在研究中使用。不幸的是,这似乎并不是排列组合研究人员的标准做法,最近的一些工作就证明了这一点。虽然我们同意LLMs本身可以用于伤害,但对于对齐数据来说,似乎没有这样的说法。
为对准和安全研究实现合作和可重复性是极其重要的。随着人工智能系统变得更加强大,部署更加广泛,错误和误解的代价可能会大大增加。我们认为,令人信服地解决先进的人工智能系统潜在的安全故障的唯一方法是建立一个有思想的研究人员社区,他们有深厚的专业知识,并有能力对系统进行经验性评估。如果关于先进系统的调整的知识仍然被孤立在许多独立的组织内,这将仍然是几乎不可能的。共享数据似乎是实现结果共享和验证的最简单和最常识性的方法。
一个表面上的保密理由是,组织可能会使用来自用户的数据来开发对齐的数据集,然后以侵犯用户隐私为由,为不分享数据集辩护。这是一个具有挑战性的问题,需要各组织思考如何调和商业优先事项与为社区创造 "安全公地 "的需要。如果调整与商业护城河的概念相互关联,那就会降低人工智能生态系统的整体净安全水平。因此,我们认为,为对齐而开发的数据集应该与商业数据分开,并应公开分享,以推进安全和有益的人工智能研究。
7.3 更广泛的影响
我们希望我们的工作能够提供令人信服的证据,证明人工智能系统可以同时变得更安全、更有用,而且没有性能成本。如上所述,我们在哪些价值定义了可接受和不可接受的人工智能行为的问题上基本上保持了不可知论。因此,我们希望在技术对齐方面的快速进展和具体技术的整合将促使公开可用的对齐数据、指南和基准的发展。
人工智能技术是双重用途的,这意味着它们可以被有益地使用,也可以被其他方式使用。我们发现偏好建模和RLHF的有效性令人震惊(在我们和其他人的研究中),并认为有非常合理的担忧,即这些技术可能被用于审查、欺诈和错误信息。直接的商业用途似乎也令人担忧,特别是如果对用户参与和说服等目标的优化被混合在一起。在最朴素的层面上,如果你能为 "无害 "进行优化,那么你就能 "翻转标志",产生有害的系统。20 我们还发现,专门为帮助而训练的系统更容易被用于有害的目的,这表明随着系统变得更加强大,直接遏制其潜在的危害将变得越来越重要。
也许这项工作的最广泛影响,以及可控的、类似人类的语言生成的普遍发展和传播[Ganguli等人,2022],将是文化方面的。在图1中,我们使用了Elo量表,基本上是国际象棋评级系统,来比较和评估自然语言助手,我们甚至包括与人类作家的比较。这种比较有可能使语言的重要性变得微不足道,语言当然不仅仅是一种游戏,而是文化和社会的核心媒介。虽然寻求调整能力越来越强的人工智能系统感觉是一个强有力的好动作,但如何以及何时部署这些系统提出了更具挑战性的问题--文化从根本上说是一项人类事业,但大规模的生成模型有可能以不可预测和不透明的方式放大和缩小人类文化的不同部分,这可能会产生广泛的下游影响。