chatgpt训练语料 很有趣,但ChatGPT并不会让你马上失业 I科技

默认分类2个月前发布 admin
1,510 0
ChatGPT国内版

最近网站停止了服务,而且贴了一首它自己写的诗歌。

诗歌大意是:最近需求太强烈/所以我吃不消了/所有用户都必须等待/服务器正在扩容和重启的路上/耐心是唯一的解药/相信我们正在拼命干活。图源:

过去三个月内,超过一亿人体验了这个对话机器人,所有媒介都在讨论“它可以做什么。”,似乎明天就可以取代人类。

然而,会很快让你失业吗?

搜信息,写文章(从情书到毕业论文),翻译,写诗,写程序。虽然它看上去什么都能做,但真正能取之即用的对话产出并不多。

先来看看到底什么是。

全球头部互联网服务到达一百万用户速度对比。图源:UBS

是公司开发的,一种专注于对话生成的语言模型。它能够根据用户的文本输入,产生相应的智能回答,回答可以很短,也可以很长。

其中GPT是 Pre- (生成型预训练变换模型)的缩写。

什么是“对话生成的语言模型”?可以理解为:通过学习大量现成文本和对话集合(例如Wiki),就能够预测下一个字应该是什么。

《纽约时报》称其为“有史以来向公众发布的最好的人工智能聊天机器人”。图源:

也就是说,他不需要“理解”对话内容,只是根据大量文本(含对话)和学习模型,预测一段文本下一个字最大概率是什么,这样来跟你形成对话。

所以背后的“生成型预训练变换模型”和其它竞争的语言模型一样,是一种“通用人工智能。”,也就是可以学习一切文本来产生任何一种新的文本(语言)。

人类的智能大部分基于语言的,这种通用语言模型的开发,站在人工智能技术的中心点上。

热衷人工智能的马斯克曾经是公司的股东,但后来由于和CEO奥特曼的技术路线的不一致离开了。图源:

chatgpt训练语料 很有趣,但ChatGPT并不会让你马上失业 I科技

利用开放的聊天平台,使得能够不断对话和学习新的对话,这样就造成了一个结果:就是数据量会迅速放大,而且会不断对原来的模型形成自动修正。

这就大大加速了学习速度。对语言学习模型来讲,数据学习效率是极重要的。

每一代GPT模型的参数量都爆炸式增长,堪称“越大越好”。2019年2月发布的GPT-2参数量为15亿,而2020年5月的GPT-3,参数量达到了1750亿。

由于很多特别的策略,每一代GPT模型的参数量都爆炸式增长。2019年2月发布的GPT-2参数量为15亿,而2020年5月的GPT-3,参数量达到了1750亿。图源:《陈巍谈芯》

这样使得迅速成为人工智能语言模型领域的当红炸子鸡。

最近表现出的上下文对话能力甚至编程能力,完成了大众对人机对话机器人()从“人工智障”到“有趣”的印象改观。

的主要特点。使用 RLHF( from Human ,人类反馈强化学习) 技术对 进行了训练,且加入了更多人工监督进行微调。图源:《陈巍谈芯》

但技术仍然有一些局限性。那么它的缺点是什么?

1)在其未经大量语料训练的领域缺乏“人类常识”和引申能力,甚至会一本正经的“胡说八道”。例如让做一道小学应用题,尽管它可以写出一长串计算过程,但最后答案却是错误的。

2)无法处理复杂冗长或者特别专业的语言结构。对于来自金融、自然科学或医学等非常专业领域的问题,如果没有进行足够的语料“喂食”,可能无法生成适当的回答。

人工智能的最大问题可能是1.当前只有一小部分人才能使用得起人工智能。2.当人工智能开始不需要人类的控制就能自动学习时,人类离末日也就不远了。图源:

3)开放式的需要惊人的算力(芯片)来支持其训练和部署。这些服务器的成本是普通用户无法承受的,任何企业也都难以靠自身资金承受这一成本。因此对于普通大众来说,还需等待更轻量型的模型或更高性价比的算力平台。

4)还没法在线的把新知识纳入其中。一是因为出现一些新知识就去重新在后台预训练GPT模型是不现实的,无论是训练时间或训练成本。

新知识在线训练的模式,似乎可行且语料成本相对较低,但是很容易由于新数据的引入而导致对原有知识的灾难性遗忘。

5)仍然是黑盒模型。目前还未能对的内在算法逻辑进行分解,因此并不能保证不会产生攻击甚至伤害用户的表述。

chatgpt训练语料 很有趣,但ChatGPT并不会让你马上失业 I科技

NLP技术的应用领域。本质上,作为基础的GPT-3或GPT-3.5 是一个超大的统计语言模型或顺序文本预测模型(NLP)。图源:《陈巍谈芯》

根据最近大量出现的对话案例。在翻译领域,目前的翻译水平比起一流的翻译软件仍有差距,在一些有很多专业词汇的领域更是这样。

在搜索领域,目前只学习到2021年前的互联网知识,用他取代谷歌百度等搜索引擎当前还不现实的,通用人工智能的设计目的也完全不是取代搜索引擎。

在写作领域,只能写作水平非常一般的通行文字,哪怕是情书这样的应用文,要写得真正适用于普罗大众的个性化需求也很困难,不要提一份用于正式商业场合的ppt了。

虽然无数科技杂志先后声明写作科技论文时可以使用,但不能列其入作者名单,但背后重点是“人工智能无法承担法律责任。”图源:

文科毕业论文可能是比较擅长的领域,毕竟大量高校并不需要太高水平的专业论文。

在编程领域,有工程师贴出了要求写代码(芯片设计代码)的对话,可以看出水平已经超出一些初学者了。但是,普通人能像工程师一样准确描写自己的编程需求吗?

在硅谷最近有一种新职业诞生,就是等人工智能语言模型的对话师,精通技术原理的it工程师通过精心设计的对话,的确可以做到让表现极其出色。

但是,这些工程师的薪水远贵于使用本身。

和任何一次新技术革命一样,这种技术的普及需要一段可能并不短的时间,而使用成本本身是最关键的要素之一。

这并不是说,这个领域不会出现更大的创新,来让过程快几十倍。

8岁学会编程,16岁官宣出柜。人工智能实验室及首席执行官Sam 最近在全世界声名鹊起,他也被媒体称为之父。

虽然公司CEO声称从来没有思考过这一人工智能技术的商业模式,但2月2日消息,由开发的人工智能聊天平台通过官方账号宣布了会员制服务将在几周后到来。

每月20美元,约合人民币134元。据悉, Plus服务已知的特权仅仅是“更快的响应速度”,具体独占功能还未曝光。图源:

参考文献:

陈巍:《发展历程、原理、技术架构详解和产业未来》(作者曾担任华为系自然语言处理( NLP )企业的首席科学家。)

323AI导航网发布

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...