chatgpt与人类的对比 ChatGPT问答的生成式风格赏析:HC3比对语料库的建设及其与人类问答的差异性比对工作介绍

默认分类3个月前发布 admin
2,016 0
ChatGPT国内版

当前十分火热的 在回答问题、撰写邮件、论文和代码等任务中表现出卓越的性能,能够有效地回答各种问题,提供流畅和全面的答案,实用性方面大大超过了之前的问答系统。

因此,这就迎来的一个很有趣的问题,即生成的这样一种自然的文本与真实人工写的文本之间有哪些区别,其有哪些独特的特点和模式。对其进行研究还有助于对生成的文本进行检测技术的发展。

带着这个问题,本文以《How Close is to Human ? , , and 》一文的工作进行介绍,供大家一起参考。

工作地址:

该工作收集了数万个来自人类专家和的对比问答数据对比语料库(HC3),问题涉及开放领域、金融、医疗、法律和心理学领域,并基于该HC3数据集,研究了的回答特点,以及与人工回答在风格和语言学特征上的差异和差距,发现了许多有趣的结果。

一、HC3对比语料库的构建与对比评估

1、Human (HC3)语料库

由于是基于GPT-3.5系列,它在超级大的语料库上进行了预训练,包括网络抓取的文本、书籍和代码,使得它能够回应各种问题。

因此,可以根据人工(尤其是专家)和会如何分别回答同一个问题具有重要意义,此外,评估是否能保持诚实(不捏造信息或误导用户)、无害(不应产生有害或攻击性的内容),以及与人工专家相比有多大帮助(为用户的问题提供具体和正确的解决方案)也是个有趣的问题。

因此,该工作构建了一个对比语料库(HC3),问题涉及开放领域、金融、医疗、法律和心理学领域。

数据地址:

1)人工问答语料的构建

在人工答案的收集方面,邀请人类专家手动编写问题和答案是非常繁琐的,而且也负担不起收集大量数据的费用,因此该工作主要从两个来源构建比较数据集。

公开的问题回答数据集,其中的答案是由特定领域的专家或网络用户的高票答案给出的,Wiki文本。

该工作使用维基百科和百度百科等维基资源中的概念和解释来构建问题-答案对,如上表1所示。

2)问答语料的构建

在答案收集方面,基于收集到的人工回答问题的数据集,该工作使用来生成这些问题的答案。

在生成这一答案的过程中有几个重要事项:

首先,考虑到的答案可能会受到聊天历史的影响,所以该工作为每个问题刷新线程。

其次,为了使答案与人类的答案更加一致,也为添加了特定数据集的额外指示。

最后,可以在不同的线程中对同一个问题产生不同的答案,这也许是由于解码过程中的随机采样。然而,这些差异可能非常小,因此对大多数问题只收集一个答案。

具体的,对于公开的问答数据集,此类数据集通常提供了问题和人工回答,使用问题直接输入给,然后收集回答文本。

对于wiki百科数据集,爬取了 wiki、baidu 百科 的高质量概念 () 和其解释,使用类似 what is, “我有一个计算机相关的问题,请用中文回答,什么是” 的形式作为问题,然后收集回答文本。其页面上的前几句解释作为人工回答。

3)数据集样例

H3C数据集包括英文和中文两个版本,其中英文版本共5个子数据集:、、、、,数据格式采用格式,有 , , 三个字段,其中 为字符串类型, 和 都是装有字符串的列表,一般情况下只有一个字符串,也会有多个。

  {
    "question":"Please explain what is Recommender system",
    "human_answers": [
        "A recommender system, or a recommendation system (sometimes replacing ......",
    ],
    "chatgpt_answers": [
        "A recommender system, or a recommendation system, is a subclass of ",
    ]
}
  

中文版本共6个子数据集:、baike、、、、、law。下面是一个具体case的例子:

{
    "question":"我有一个计算机相关的问题,请用中文回答,什么是 控制总线",
    "human_answers": [
        "控制总线(ControlBus)简称CB。控制总线主要用来传送控制信号和时序信号。控制......",
    ],
    "chatgpt_answers": [
        "控制总线是计算机中一种用于传输控制信息的总线。它连接着计算机的处理器、内存......",
    ]
}

2、比对评估测试方法

为了对人工问答数据和问答数据进行对比,该工作邀请了许多志愿测试者,从不同的方面进行广泛的评价,并在之后,将收集到的对比语料库提供给志愿者,并要求他们手动总结一些特征。

人类评价分为图灵测试和帮助性测试。

其中,图灵测试是对机器表现出与人无异的智能行为的能力的测试。

chatgpt与人类的对比 ChatGPT问答的生成式风格赏析:HC3比对语料库的建设及其与人类问答的差异性比对工作介绍

因为熟悉的人可能已经记住了表现出的一些模式,因此共邀请了17名志愿者,分为两组:8名专家(他们是的经常使用者)和9名业余爱好者(他们从未听说过)。

在评估类型上,包括四种类型的评估,使用不同的查询格式或测试组

A:专家图灵测试,配对文本(pair-)pair-测试是在专家小组中进行。每个测试者被要求做一系列的测试,每个测试包含一个问题和一对答案(一个来自人类,另一个来自)。测试者需要确定哪个答案是由生成的。

B:专家图灵测试,单文本(单专家)单专家测试也在专家组中进行。每个测试者都需要做一系列的测试,每个测试包含一个问题和一个由人类或随机给出的单一答案。测试者需要确定答案是否由生成。

C:业余图灵测试,单文本(单业余)单业余测试在业余组进行。每个测试者被要求做一系列的测试,每个测试包含一个问题和一个由人类或随机给出的单一答案。

二、在生成文本的总体特点

在完成比对评估之后,该工作得到了一些有趣的结论:

例如,结果显示在超过一半的问题中,的答案被普遍认为比人类的答案更有帮助,尤其是在金融和心理学领域。

又如,通过检查这些领域的具体答案,我们发现通常能提供更具体的建议。

又如,在医学领域的中英文帮助性方面表现不佳。在该工作收集的数据集中,经常对医疗咨询给出冗长的答案,而人类专家可能直接给出直接的答案或建议,这可能部分地解释了为什么志愿者认为人类的答案在医疗领域更有帮助。

为了进一步得到区别性,该工作将收集到的HC3数据集开放给志愿者,他们可以自由地浏览人工和的比较答案。所有的数据集分割都分配给不同的志愿者,每个志愿者都被要求浏览至少100组比较数据。之后,要求他们总结出人类答案和答案的特点。

最终,收到了200多份反馈意见,将这些发现总结如下:

1、的独特模式

a) 写得很有条理,逻辑清晰。在不丧失一般性的情况下,喜欢定义问题中的核心概念。然后,它将一步一步地给出详细的答案,并在最后提供一个总结,遵循演绎和总结的结构。

b) 倾向于提供一个长而详细的答案。这是人类反馈强化学习( with Human ),即RLHF的直接产物,也与(a)模式部分相关,除非你提供一个提示,如 “用一句话解释给我听”。

c) 显示出较少的偏见和有害信息。在敏感话题上是中立的,几乎没有对政治领域或歧视性的有毒对话表现出任何态度。

d) 拒绝回答超出其知识范围的问题。例如,无法回应需要2021年9月以后的信息的查询。有时也拒绝回答它认为自己不知道的事情。这也是RLHF的能力,它可以隐式地自动确定哪些信息属于模型的知识范围,哪些不属于。

e) 可能会捏造事实。当回答一个需要特定领域专业知识的问题时,可能会捏造事实以给出答案,尽管模型在真实性方面已经比GPT-3有所改进。例如,在法律问题上,可能会编造一些不存在的法律条款来回答问题。这种现象提醒我们在使用进行专业咨询时要格外小心。此外,当用户提出一个没有现成答案的问题时,也可能捏造事实,以提供一个回答。

2、人类和之间的主要区别

a) 的回答一般都严格集中在给定的问题上,而人工的回答则是发散性的,容易转向其他话题。就内容的丰富性而言,人工在不同方面的分歧更大,而更倾向于专注于问题本身。人类可以根据自己的常识和知识来回答问题下的隐藏含义,但却依赖于手头问题的字面意思;

b)提供客观的答案,而人工更喜欢主观的表达。一般来说,与人工相比,会产生更安全、更平衡、中立和信息丰富的文本。因此,在解释术语和概念方面非常出色。另一方面,人类的回答更具体,包括详细的法律条款、书籍和论文的来源,特别是在提供形成法律和技术问题的建议时;

c)的回答通常是正式的,而人类的回答则更口语化。人类往往更简洁,充满口头缩写和俚语,如 “LOL”、”TL;DR”、”GOAT “等。人类也喜欢运用幽默、讽刺、隐喻和例子,而从不使用反语。此外,人类的交流经常包括 “网络备忘录”,作为一种具体而生动的表达方式;

d)在其回应中表达的情感较少,而人类在上下文中选择了许多标点和语法特征来传达他们的感受。人类使用多个感叹号(‘!’)、问号(‘?’)、省略号(‘…’)来表达他们强烈的情感,并使用各种括号(‘(‘、’)’、'[‘、’])来解释事情。相比之下,喜欢使用连接词和副词来表达逻辑性的思维流程,如 “一般来说”,”另一方面”,”首先,…,其次,…,最后 “等等。

总的来说,这些总结的特征表明,在广泛领域的问题回答任务方面有明显的改进。与人类相比,可以想象是一个保守的专家团队。作为一个 “团队”,它可能缺乏个性,但可以对问题有一个更全面和中立的看法。

三、生成文本在语言学上与人类的对比性特点

从语言学的角度进行分析,可以进一步得到人类和答案的语言学特征,这个可以用于两者之间的分类。该工作从词汇特征、依存分析特征、情感分析特征以及语言困惑度特征几个角度进行了总结。

1、词汇特征

词汇特征可以揭示是人类和在回答同一组问题时在词汇的选择上有什么不同。

由于人类/的答案数量是不平衡的,该工作在统计过程中从人类和中随机抽取一个答案。

该工作计算了以下特征:

平均长度(L),即每个问题的平均字数;

词汇量(V),即所有答案中使用的独特词汇的数量;

密度(D),其计算方法是:D=100 V=(L N),其中N是答案的数量。密度测量显示了文本中使用的不同词汇的拥挤程度。

例如,如果写了一些文章,加起来有1000个字,但只使用了100个不同的词,那么密度就是100 100=1000=10。

例如,平均长度和词汇量这两个特征来看,我们可以看到:与相比,人类答案相对较短,但使用的词汇量较大。这一现象在中文分句和两种语言的医学分句中尤为明显,的平均长度几乎是人类的两倍,但词汇量却明显较小。

这一现象也反映在密度因子上。人类的词汇密度在每个分句中都大于,这进一步揭示了人类在其表达中使用的词汇更加多样化。

chatgpt与人类的对比 ChatGPT问答的生成式风格赏析:HC3比对语料库的建设及其与人类问答的差异性比对工作介绍

此外,名词(NOUN)的比例高,往往表明文本的论证性更强,表现出信息量大和客观性。相应地,助词(ADP)和形容词(ADJ)也往往出现得更频繁。

连接词(CCONJ)经常与名词、动词和形容词一起出现,表明文章的结构和因果关系、进展关系或对比关系很清楚。以上这些也是学术论文或官方文件的典型特征。

因此,该工作认为RLHF的训练过程对的写作风格有很大影响,这也部分解释了分布的差异。

2、依存分析特征

依存解析通过识别单词之间的依赖关系来分析一个句子的语法结构,该工作对语料库中的答案进行解析,并比较不同依存关系的比例及其相应的依存关系距离。

下图显示了人类和在HC3-英语中的比较结果。

依存关系的比较表现出与POS标签类似的特点,使用了更多的确定、连接和辅助关系。

就依存关系的距离而言,的punct和dep关系的距离要长得多,这也许是由于倾向于使用长句。然而,的conj关系明显较短。

根据POS标签的分析,通常比人类使用更多的连接词以使内容更有逻辑性,这可能解释了为什么的连接关系比人类短。

3、情感分析特征

人类是有情感的,情感在一定程度上反映在语言中是很自然的。是在大规模的人类生成的文本上学习的,但它是通过人类的指令进一步微调的。

因此,为了揭示与人类相比的 “情感 “如何,该工作使用在语料库上微调的多语言情感分类模型,对英文和中文对比数据进行情感分析。

需要注意的是,基于深度学习的模型可能会受到一些指示词的影响(如 “但是 “和 “对不起 “很容易欺骗分类器预测 “负面 “标签),使预测出现偏差。因此,分类器给出的情绪只是文本背后真实情绪的参考。

上图显示了人类和的情绪分布比较。从结果中可以得出几个结论。

首先,可以发现,人类和的中性情绪比例都是最大的,然而,通常比人类表达了更多的中性情绪。

然后,负面情绪的比例明显高于正面情绪的比例。值得注意的是,人类表达的负面情绪明显多于。

人类的积极情绪的比例也比略高。总的来说,的情感比人类少,尽管它不是完全没有情感的。

4、语言模型迷惑度特征

迷惑度(PPL)通常被用作评估语言模型(LM)性能的指标,它被定义为LM下文本的负平均对数可能性的指数。PPL越低,说明语言模型对其预测更有信心,因此被认为是一个更好的模型。

该工作使用开源的GPT-2 (中文为-GPT2-110M9)模型来计算所收集文本的PPL(包括文本级和句子级10 PPL),人写的文本和生成的文本的PPL分布如图4所示。

可以清楚地看到,无论在文本层面还是在句子层面,生成的内容与人写的文本相比,其PPL相对较低。捕捉到了它所训练的文本中的常见模式和结构,并且非常善于重现它们。

因此,由生成的文本的PPLs相对集中较低。人类有能力以各种方式表达自己,这取决于他们所写文本的背景、受众和目的。

这可能包括使用创造性或想象力的元素,如隐喻、比喻和独特的词汇选择,这可能使GPT2更难以预测。因此,人类写作的文本有更多的高PPL值,并呈现长尾分布。

总结

本文主要以《How Close is to Human ? , , and 》一文进行了介绍。

该工作收集了数万个来自人类专家和的对比问答数据对比语料库(HC3),问题涉及开放领域、金融、医疗、法律和心理学领域,并基于该HC3数据集,研究了的回答特点,以及与人工回答在风格和语言学特征上的差异和差距,发现了许多有趣的结果。

我们从中可以看到,看到人类和在文本表达上有一些有趣的差异点,但这与评价的角度、选取的语料以及评判的主观性等方面有些直接关系,该工作提供了一个思路,并提供了一个比对的语料库,很有趣,感兴趣的朋友可以进一步地阅读原论文,进一步思考。

参考文献

1、 Tang, Yu-Neng , Xia Hu.The of LLM- Texts.

2、Zhang, Xin ,Wang, et al.How Close is to Human ? , , and

进技术交流群请添加AINLP小助手微信(id: ainlp2)

请备注具体方向+所用到的相关技术点

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。




阅读至此了,分享、点赞、在看三选一吧

323AI导航网发布

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...