方法总体上包括三个不同步骤:
有监督的调优:预训练的语言模型在少量已标注的数据上进行调优,以学习从给定的 列表生成输出的有监督的策略(即 SFT 模型);
模拟人类偏好:标注者们对相对大量的 SFT 模型输出进行投票,这就创建了一个由比较数据组成的新数据集。在此数据集上训练新模型,被称为训练回报模型( Model,RM);
近端策略优化(PPO):RM 模型用于进一步调优和改进 SFT 模型,PPO 输出结果是的策略模式。
步骤 1 只进行一次,而步骤 2 和步骤 3 可以持续重复进行:在当前最佳策略模型上收集更多的比较数据,用于训练新的 RM 模型,然后训练新的策略。接下来,将对每一步的细节进行详述。
步骤 1:监督调优模型
第一步是收集数据,以训练有监督的策略模型。
数据收集:选择一个提示列表,标注人员按要求写下预期的输出。对于 ,使用了两种不同的 来源:一些是直接使用标注人员或研究人员准备的,另一些是从 的 API 请求(即从 GPT-3 用户那里)获取的。虽然整个过程缓慢且昂贵,但最终得到的结果是一个相对较小、高质量的数据集(大概有 12-15k 个数据点),可用于调优预训练的语言模型。
模型选择: 的开发人员选择了 GPT-3.5 系列中的预训练模型,而不是对原始 GPT-3 模型进行调优。使用的基线模型是最新版的 text–003(通过对程序代码调优的 GPT-3 模型)。
为了创建像 这样的通用聊天机器人,开发人员是在「代码模型」而不是纯文本模型之上进行调优。
由于此步骤的数据量有限,该过程获得的 SFT 模型可能会输出仍然并非用户关注的文本,并且通常会出现不一致问题。这里的问题是监督学习步骤具有高可扩展性成本。
为了克服这个问题,使用的策略是让人工标注者对 SFT 模型的不同输出进行排序以创建 RM 模型,而不是让人工标注者创建一个更大的精选数据集。
第二步:训练回报模型
这一步的目标是直接从数据中学习目标函数。该函数的目的是为 SFT 模型输出进行打分,这代表这些输出对于人类来说可取程度有多大。这强有力地反映了选定的人类标注者的具体偏好以及他们同意遵循的共同准则。最后,这个过程将从数据中得到模仿人类偏好的系统。
它的工作原理是:
选择 列表,SFT 模型为每个 生成多个输出(4 到 9 之间的任意值);
标注者将输出从最佳到最差排序。结果是一个新的标签数据集,该数据集的大小大约是用于 SFT 模型的精确数据集的 10 倍;
此新数据用于训练 RM 模型 。该模型将 SFT 模型输出作为输入,并按优先顺序对它们进行排序。
对于标注者来说,对输出进行排序比从头开始打标要容易得多,这一过程可以更有效地扩展。在实践中,所选择的 的数量大约为 30-40k,并且包括排序输出的不同组合。
步骤 3:使用 PPO 模型微调 SFT 模型
这一步里强化学习被应用于通过优化 RM 模型来调优 SFT 模型。所使用的特定算法称为近端策略优化(PPO),而调优模型称为近段策略优化模型。
什么是 PPO?该算法的主要特点如下:
PPO 是一种用于在强化学习中训练 agent 的算法。它被称为「on-」算法,因为它直接学习和更新当前策略,而不是像 DQN 的「off-」算法那样从过去的经验中学习。PPO 根据 agent 所采取的行动和所获得的回报不断调整策略;
PPO 使用「信任区域优化」方法来训练策略,它将策略的更改范围限制在与先前策略的一定程度内以保证稳定性。这与其它策略使用梯度方法形成鲜明对比,梯度方法有时会对策略进行大规模更新,从而破坏策略的稳定性;
PPO 使用价值函数来估计给定状态或动作的预期回报。价值函数用于计算优势函数,它代表预期收益和当前收益之间的差异。然后使用优势函数通过比较当前策略采取的操作与先前策略将采取的操作来更新策略。这使 PPO 可以根据所采取行动的估计价值对策略进行更明智的更新。
在这一步中,PPO 模型由 SFT 模型初始化,价值函数由 RM 模型初始化。该环境是一个「 」,它会产生随机 并期望对 做出响应。对于给定的 和响应,它会产生相应的回报(由 RM 模型决定)。SFT 模型会对每个 token 添加 KL 惩罚因子,以尽量避免 RM 模型的过度优化。
性能评估
因为模型是根据人工标注的输入进行训练的,所以评估的核心部分也基于人工输入,即通过让标注者对模型输出的质量评分来进行。为避免训练阶段涉及的标注者的判断过拟合,测试集使用了来自其它 客户的 ,这些 未出现在训练数据中。
该模型基于三个标准进行评估:
帮助性:判断模型遵循用户指示以及推断指示的能力。
真实性:判断模型在封闭领域任务中有产生虚构事实的倾向。
无害性:标注者评估模型的输出是否适当、是否包含歧视性内容。
该模型还针对传统 NLP 任务(如解答问题、阅读理解和摘要)的零样本学习的性能进行了评估,开发人员发现在其中一些任务上模型的表现比 GPT-3 要差一些,这是一个「一致性税」( tax) 的例子,其中基于 人类反馈强化学习的一致性程序是以降低某些任务的性能为代价的。
这些数据集的性能回归可以通过称为预训练混合的技巧大大减少:在通过梯度下降训练 PPO 模型期间,通过混合 SFT 模型和 PPO 模型的梯度来计算梯度更新。
方法的缺点
该方法的一个非常明显的局限性是,在将语言模型与人类意图保持一致的过程中,用于 fine- 模型的数据会受到各种错综复杂的主观因素的影响,主要包括:
生成 demo 数据的人工标注者的偏好;
设计研究和编写标签说明的研究人员;
选择由开发人员制作或由 客户提供的 ;
标注者偏差既包含在 RM 模型训练中,也包含在模型评估中。
的作者也承认一个明显的事实,即参与训练过程的标注人员和研究人员可能并不能完全代表语言模型的所有潜在最终用户。
除了这一明显的「内生」限制之外,该方法还有的一些其它缺点和需要解决的问题:
缺乏对照研究:报告的结果以 SFT 模型为基准衡量最终 PPO 模型的性能。这可能会产生误导:如何知道这些改进是由于 RLHF?因此对照研究非常有必要,包括投入与用于训练 RM 模型的标注工时数完全相同的时间,以创建具有高质量数据的更大的精选有监督调优的数据集。这样就可以客观地衡量 RLHF 方法与监督方法相比的性能改进。简单来说,缺乏这样的对照研究让一个基本问题完全悬而未决:RLHF 在一致性语言模型方面真的做得很好吗?
比较数据缺乏基本事实:标注者通常会对模型输出的排名持不同意见。技术上讲,产生的风险是在没有任何基本事实的情况下,向比较数据添加了很大的方差。
人类的偏好并非同质:RLHF 方法将人类的偏好视为同质和静态的。假设所有人都有相同的价值观,这明显是不准确的,虽然有大量的公共价值观,但在很多事务上人类还是存在许多不同的认知。
RM 模型 稳定性测试:没有实验表明 RM 模型在输入 变化方面的敏感性。如果两个 在句法上不同但在语义上是等价的,RM 模型能否在模型输出的排名中显示出显著差异?即 的质量对 RM 有多重要?
其它问题:在 RL 方法中,模型有时可以学会控制自己的 RM 模型以实现期望的结果,从而导致「过度优化的策略」。这可能会导致模型重新创建一些模式,因为某些未知的原因,这些模式使 RM 模型得分较高。 通过使用 RM 函数中的 KL 惩罚项对此进行了修补。