随着算法技术和算力技术的不断进步,也会进一步走向更先进功能更强的版本,在越来越多的领域进行应用,为人类生成更多更美好的对话和内容。
Q:什么是Chat GPT?
A: 是一种专注于对话生成的语言模型。它能够根据用户的文本输入,产生相应的智能回答。这个回答可以是简短的词语,也可以是长篇大论。其中GPT是 Pre- (生成式预训练变换模型)的缩写。
通过学习大量现成文本和对话集合(例如Wiki),能够像人类那样即时对话,流畅的回答各种问题。(当然回答速度比人还是慢一些)无论是英文还是其他语言(例如中文、韩语等),从回答历史问题,到写故事,甚至是撰写商业计划书和行业分析,“几乎”无所不能。
从GPT-3到
Q:与之前的对话AI有什么不同?
与大家在生活中用到的各类智能音箱和“人工智障“不同,在对话过程中会记忆先前使用者的对话讯息,即上下文,以回答某些假设性的问题。可实现连续对话,并符合大部分人群的价值观,极大的提升了对话交互模式下的用户体验。
这些使用体验提升是由于使用了RLHF( from Human ,人类反馈强化学习) 技术对 进行了训练,且加入了更多人工监督进行微调。
此外, 还具有之前对话AI所没有的特征:
1)可以主动承认自身错误。若用户指出其错误,模型会听取意见并优化答案。
2) 可以质疑不正确的问题。例如被询问 “哥伦布 2015 年来到美国的情景” 的问题时,机器人会说明哥伦布不属于这一时代并调整输出结果。
3) 可以承认自身的无知,承认对专业技术的不了解。
Q:的底层概念和原理包括哪些?
1)属于NLP (自然语言处理)技术
通俗的讲,NLP就是人类与计算机使用自然语言(例如汉语、英语)进行对话的技术。对于人类或AI,通常需接受多年或数月的训练才能正常对话。NLP类模型不仅要理解单词的含义,还要理解如何造句和给出上下文有意义的回答,甚至使用合适的俚语和专业词汇。NLP/NLU领域已知局限包括对重复文本、对高度专业的主题的误解,以及对上下文短语的误解。
2)GPT 语言模型家族
从数学或从机器学习的角度来看,语言模型是对词语序列的概率相关性分布的建模,即利用已经说过的语句(语句可以视为数学中的向量)作为输入条件,预测下一个时刻不同语句甚至语句集合出现的概率分布。
3)的本质
作为基础的GPT-3或GPT-3.5 是超大的统计语言模型或顺序文本预测模型。本质上是对人类的语言反应能力的数学逼近。
使用来自人类反馈的强化学习进行训练,这种方法通过人类干预来增强机器学习以获得更好的效果,使回答更符合大部分用户的价值观。在训练过程中,人类训练者扮演着用户和人工智能助手的角色,并通过近端策略优化算法进行微调。由于更强的性能和海量参数,它包含了更多的主题的参数,能够处理更多小众主题。
Q:GPT为什么表现这么好?
之前有几个知名的兄弟,包括GPT-1、GPT-2和GPT-3。这几个模型参数量(模型大小)逐渐增大,与GPT-3(参数量约1750亿)更为相近。
/GPT发展历程
/GPT3.5(的前身)与GPT-3的主要区别在于,新加入了被称为RLHF( from Human ,人类反馈强化学习)。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。
另外要提到TAMER( an Agent via ,评估式强化人工训练代理)这个框架。该框架将人类标记者引入到的学习循环中,可以通过人类向提供奖励反馈(即指导进行训练),从而快速达到训练任务目标。TAMER不需要标记者具有专业知识或编程技术,语料成本更低。
尽管强化学习技术在很多领域有突出表现,但是仍然存在着许多不足,例如训练收敛速度慢,训练成本高等特点。
为了提升用户体验和对话效果,RLHF被引入到GPT3.5的训练过程:
第一阶段:训练监督策略模型
GPT 3.5初始模型本身很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令的意图,首先会在数据集中随机抽取问题,由人类标注人员,给出高质量答案,然后用这些人工标注好的数据来微调 GPT-3.5模型(获得SFT模型, Fine-)。这一过程类似于学生自学。
第二阶段:训练奖励模型( Model,RM)
这个阶段的主要是通过人工标注训练数据(约33K个数据),来训练奖励模型。在数据集中随机抽取问题,使用第一阶段生成的模型,对于每个问题,生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师辅导。
第三阶段:采用PPO( ,近端策略优化)强化学习来优化策略。
在获得了足够的训练数据后,还采用PPO( ,近端策略优化)强化学习来优化策略。PPO的核心思路在于将有人监督的在线学习转化为无人监督的离线学习。在数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的RM模型给出质量分数。把回报分数依次传递,由此产生策略梯度,通过强化学习的方式以更新PPO模型参数。这一过程类似于根据答案刷题。
不断重复第二和第三阶段,通过迭代,会训练出更高质量的模型。
训练过程
Q:现阶段还有什么不足?
尽管表现出出色的上下文对话能力甚至编程能力,完成了大众对人机对话机器人()从“人工智障”到“有趣”的印象改观,我们也要看到,技术仍然有一些局限性,还在不断的进步。
1)在其未经大量语料训练的领域缺乏“人类常识”和引申能力,甚至会一本正经的“胡说八道”。在很多领域可以“创造答案”,但当用户寻求正确答案时,也有可能给出有误导的回答。例如让做一道小学应用题,尽管它可以写出一长串计算过程,但最后答案有可能是错误的。
2)无法处理复杂冗长或者特别专业的语言结构。对于来自金融、自然科学或医学等非常专业领域的问题,如果没有进行足够的语料“喂食”,可能无法生成适当的回答。
3)需要非常大量的算力(芯片)来支持其训练和部署。抛开需要大量语料数据训练模型不说,在目前,在应用(计算)时仍然需要大算力的服务器支持,而这些服务器的规模成本是普通用户无法承受的,即便数十亿个参数的模型也需要很大的计算资源才能训练(训练数据在TB以上量级)。如果面向真实搜索引擎的数以亿记的用户请求,如采取目前通行的免费策略,大部分企业都难以承受这一成本。因此对于普通大众来说,还需等待更轻量型的模型或更高性价比的算力平台。
4)还没法在线的把新知识纳入模型之中,而出现一些新知识就去重新预训练GPT模型也是不现实的,无论是训练时间或训练成本,都是普通训练者难以接受的。如果对于新知识采取在线训练的模式,看上去可行且语料成本相对较低,但是很容易由于新数据的引入而导致对原有知识的灾难性遗忘的问题。
5)仍然是黑盒模型。目前还未能对的内在算法逻辑进行分解,因此并不能保证不会产生攻击甚至伤害用户的表述。
Q:还能朝什么方向优化?
目前看到比较有价值的优化方向包括: