chatgpt ai智能对话模型 ChatGPT生成性预训练变换模型

默认分类1年前 (2023)发布 admin
45 0
ChatGPT国内版

一,简介

是一款于2022年11月30日在美国发布的聊天机器人程序,是一款基于人工智能技术驱动的自然语言处理工具。

全称为“Chat Pre- ”,Chat是聊天,GPT是“生成型预训练变换模型”,它可以翻译成“聊天生成预训练转换器”或简称“优化对话的语言模型”。

是开发的、具有语言预测与文本续写功能的一个大模型。一个用对话的方式进行交互的模型。一种基于互联网可用数据训练的文本生成深度学习模型。一个人工智能聊天机器人程序。

是一款建立在云计算、海量数据库、人工智能算法架构和深度神经网络基础之上开发的聊天机器人程序,它不像传统的搜索引擎一样复制和拼凑网上已有的信息给用户。相反,它提供的回答是有逻辑的、生动的,有上下文关联的。

总结一下,是美国人工智能研究实验室新推出的一种人工智能技术驱动的自然语言处理工具,使用了神经网络架构,也是GPT-3.5架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力,尤其是它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得具备上知天文下知地理,还能根据聊天的上下文进行互动的能力,做到与真正人类几乎无异的聊天场景进行交流。不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

功能

目前系统功能主要是文本生成、聊天机器人、语言问答、语言翻译、自动文摘、绘画功能、编程功能、视频生成等八大功能模块所组成。

二,底层技术架构生成性预训练变换模型

从字面意思来看,Chat是聊天,GPT才是关键。

字母G是,属于生成的人工智能,根据我们的需要,创造生成全新的内容。

字母P是Pre-的缩写,预训练。表示这个模型已经在大量的数据集上进行了预训练,在与人的对话中几乎接近正常人的交流,就是因为已经接受过海量数据的训练,而这些数据就是我们2022年以前在互联网上的内容(目前版本的还不具备网络数据实时更新功能)。当前还没有实现网络的实时连接,因此回答问题的时效性受到一定的限制。

字母T是,转换器的意思,是底层人工智能学习的一个算法架构。

严格意义上来说是一种基于的自然语言处理模型。采用预训练加微调的方法,通过对大规模语料库进行预训练,对标注数据进行微调,从而使模型能够适应特定的自然语言处理任务,拥有语言理解和文本生成能力。

的演进

使用基于GPT-3.5架构的大型语言模型并加以强化训练训练。

的演进过程:

第一阶段:GPT-1发布

2018年6月, 第一篇论文《 by Pre-》通过生成式预训练来提高语言理解能力的论文中提出了第一个模型GPT-1。从这篇论文中得出的关键结论是, 架构与无监督预训练的结合产生了GPT-1, 加上有监督微调方式,针对特定任务进行预训练,实现了强大自然语言理解能力。

chatgpt ai智能对话模型 ChatGPT生成性预训练变换模型

第二阶段:GPT-2发布

2019年2月,发表了第二篇论文《 are 》,推出了GPT-2 。GPT-2是一种自然语言生成模型,其设计目标是生成与人类语言相似的文本,可以完成多任务处理。

第三阶段:GPT-3发布

2020年5月,发表第三篇论文《 are Few-Shot 》,推出了GPT-3。GPT-2和GPT-3是两个不同的模型,它们的主要区别在于应用场景、模型规模和性能表现。GPT-3是一种自然语言生成模型,它是目前规模最大的预训练模型,可以生成高质量的自然语言文本,包括文章、诗歌、对话等。GPT-3还支持一些其他的自然语言任务,例如翻译、问答、语义搜索等。

第四阶段:GPT-3.5 发布

2022年11月29日,发布了一个命名为“text–003”(文本-达芬奇-003常称为GPT3.5)的新模型。它以对话方式进行交互,既能够做到回答问题,也能承认错误、质疑不正确的前提以及拒绝不恰当的请求。

的预训练加微调

所谓的预训练,是一个基于模型的预训练语言模型,它的训练逻辑如下:

第一是语料准备,从互联网上收集大量文本语料。

第二是对数据预处理,对语料进行处理,把它们分割成许多独立的句子或段落,对每个句子进行分词。分词后把每个单词转换成数字,生成一个数字序列,然后构建成数字词典。

训练就是使用这些数字序列用模型进行模拟场景试验,需要投入大量的人工干预,并使用监督学习的方式对预训练模型进行微调。根据奖励模型优化策略,然后生成输出,的预训练应当是基于正向传递,反向更新,梯度收敛,预训练模型降低了获取更高水平人工智能的成本。

的转换器

的核心技术之一是转换器,技术是近几年人工智能技术最大的亮点之一,由谷歌的人工智能的团队“谷歌大脑”首先发布。

这种模型是使用一种叫自注意力的机制(self ),它允许模型在进行预测的时候,可根据语言序列的任何位置,为输入数据的不同部分赋予不同的权重,并支持处理更大的数据集。

的精度和性能上都比之前流行的CNN(卷积神经网络)、RNN(循环神经网络)等模型,大幅提升了模型训练的效果,让人工智能在更大模型、更多数据、更强算力的基础上进一步增强运算能力。此外,还具有很强的跨模态处理能力,不仅在NLP(自然语言理解)领域表现优异,在语音、图像方面也显示出了优异的性能。

是语言模型的核心技术,是一种用于序列到序列(-to-)任务的神经网络模型,例如机器翻译,语音识别和生成对话等,它使用了注意力机制来计算输入序列和输出序列之间的关系。

的主要优点是它可以并行地处理输入序列中的所有信息,因此在训练和推理时都有很高效率。

此外,没有使用循环结构,因此它不受长序列的影响,并且在处理长序列时不会出现梯度消失或爆炸的问题。

chatgpt ai智能对话模型 ChatGPT生成性预训练变换模型

人类反馈优化语言模型(RLHF)

面对多样化的问题对答如流,已经打破了机器和人类沟通的边界,这一工作的背后是大型语言模型 (Large Model,LLM) 生成领域的新训练范式RLHF ( from Human ) ,即依据人类反馈的强化学习方法模型。

官网上如是说:我们使用依据人类反馈的强化学习方法模型(RLHF)来实施训练,使用监督微调训练一个初始模型与人类人工智能训练师提供对话,他们在其中扮演用户和人工智能助手。我们让培训师可以访问模型编写的建议,以帮助他们撰写答案。为了创建强化学习的奖励模型,我们需要收集比较数据,其中包括两个或多个按质量排名的模型响应。为了收集这些数据,我们进行了人工智能培训师与聊天机器人的对话。我们随机选择了一个模型编写的消息,抽样了几个替代完成,并让AI培训师对它们进行排名。使用这些奖励模型,我们可以使用近端策略优化来微调模型,我们执行了此过程的多次迭代。

强化学习算法训练奖励模型简单来说就是分为三个阶段:

第一阶段是收集示范数据,人工智能培训师与聊天机器人对话,并接受监督。

第二阶段是收集比较数据,训练一个奖励模型。

第三阶段是利用PPO强化学习算法,优化一个针对奖励模型的策略。

的DALL.E 2自然语言转换成像技术

根据官网上的介绍,中的DALL.E 2自然语言转换成像技术,最初只是一个研究项目,目标是制定并继续改进安全缓解的措施,其中包括:

第一、限制DALL·E 2 自然语言转换成影像时生成暴力、仇恨或成人图像。通过从训练数据中删除有害的视频内容、使用先进的技术来防止真实人物的面部,包括公众知名人物的面部在视频中出现。

第二、遏制用户滥用政策。不允许文本要求生成暴力、成人或政治内容等视频。如果我们的过滤器发现可能违反我们政策的文本提示和图片上传,就会采用自动化和人工监控系统予以拒绝。

认为:负责任的开发和安全监管是人工智能的重要组成部分,让用户对安全系统有信心。

希望DALL.E 2自然语言转换成像技术能降低图像生成模型相关的风险。为此,DALL.E 2在互联网上数亿张带标题的图像上进行训练,删除并重新加权其中一些图像,更改模型学习的内容。

同时,采用在DALL.E 2中设置各种防护栏训练数据集,过滤训练数据,放大偏差、重复数据删除等多种技术手段,以防止生成的图像违反内容管制政策。使人们能够创造性地表达自己,帮助人们了解人工智能系统如何看待和理解我们的世界,对于创造人类的人工智能使命至关重要。

存在哪些局限性

1,数据偏差和样本不足问题。虽然 使用了很大规模的语料库进行预训练,但是其在某些领域的样本仍然不足,比如在一些非英文的语言中, 的表现不如英文。

2,在训练的强化学习 (RL) 阶段,没有真相和问题标准答案的具体来源,来答复你的问题。

3,模型参数过多,计算资源要求高。 模型参数数量大,对计算资源的要求也高,需要大规模的GPU 集群才能进行训练和应用。

4,监督训练可能会误导/偏向模型倾向于知道理想的答案,而不是模型生成一组随机的响应并且只有人类评论者选择好的/排名靠前的响应

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...