chatgpt做数据标注 SELF-INSTRUCT无需人工标注

默认分类1年前 (2023)发布 admin
1,535 0
ChatGPT国内版

是在 GPT 3.5 系列模型的基础上,引入「人工标注数据 + 强化学习」(RLHF)来不断微调预训练语言模型,旨在让大型语言模型(LLM)学会理解人类的命令,并学会根据给定的 给出最优的答案

这种技术思路是当前语言模型的发展趋势。这类模型虽然很有发展前景的,但模型训练和微调所需的成本非常高。根据 目前公开的信息, 的训练过程共分为三个阶段:

首先,第一个阶段是类似于 GPT 3.5 的有监督策略模型,这个基础模型很难理解人类不同类型指令中蕴含的意图,也很难判断生成内容的质量高低。研究人员从 数据集中随机抽取了一些样例,然后让专业的标注人员根据指定 给出高质量的答案。这个人工过程获得的 及其相应高质量答案被用于微调初始的有监督策略模型,使其具备基本的 理解能力,并初步提高生成答案的质量。

chatgpt做数据标注 SELF-INSTRUCT无需人工标注

第二阶段研究团队抽取模型根据给定 生成的多个输出,然后让人类研究员对这些输出进行排序,再用排序数据训练奖励模型( model,RM)。 采取 pair-wise loss 来训练 RM。

第三阶段研究团队采用强化学习来增强预训练模型的能力,利用上一阶段学好的 RM 模型来更新预训练模型参数。

我们可以发现,在 训练的三个阶段中,只有第三阶段不需要使用人工标注数据,而第一第二阶段都需要大量的人工标注。因此 这类模型虽然性能很好,但是为了提高其遵循指令的能力,人工成本非常高。随着模型规模越来越大,能力范围越来越广,这个问题就会越发严重,最终成为阻碍模型发展的瓶颈。

一些研究尝试提出解决这一瓶颈的方法,比如华盛顿大学等机构近期联合发表了一篇论文《SELF-: Model with Self 》,提出的新框架 SELF- 通过引导模型自己的生成过程,提高了预训练语言模型的指令遵循能力。

chatgpt做数据标注 SELF-INSTRUCT无需人工标注

论文地址:

SELF- 提供了一种几乎不需要人工标注的方法,实现了预训练语言模型与指令对齐。已有多个工作在类似的方向上做出尝试,都收获了不错的结果,可以看出这类方法对于解决大型语言模型人工标注成本高的问题非常有效。

参考链接:

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...