01
第一个角度:Chat=下一代自然交互界面和主要入口
我有一些从事AI科研的朋友,他们的专业水平其实很好,但对进行一番研究(往往是不太充分的研究)后的反应是:好像没有太大的技术创新啊?不就是把模型搞大了,参数更多嘛?用的基础技术都是之前别人搞的嘛。其实也不是他们这么说,连深度学习三巨头之一、图灵奖得主Yann Lecun也是这样讲的。
他们可能没有意识到,其实仅仅在交互上的创新就会对产业格局乃至社会产生巨大影响。这也是我对过去几十年信息技术行业最重要的观察:价值最大的技术,往往都改变了大众交互方式。
我们来回顾一下人类和机器交互的历史。
其实在最早的人机交互可能是手动开关和打孔机。后来产生了一个里程碑式的交互进步:
第一代交互方式:CLI命令行界面(-Line )
人们开始可以通过键盘、命令、显示器与机器进行交流。但这必须是受过训练的技术人员才能完成的,需要记忆很多命令和选项,对普通人门槛很高。
于是后来,更易用的交互方式诞生了:
第二代交互方式:GUI图形用户界面( User )
到目前为止,我们大多是用的还是GUI,比如、Mac电脑或苹果、安卓手机,我们通过屏幕上的窗口、菜单、图标等等,用鼠标、手指、动作与之互动,完成与机器的交流,普通用户稍加学习都能操作。这个发明实际上是目前仍然市值最高的两家IT公司——苹果和微软的基础,乔布斯和盖茨先后从施乐公司的PARC研究院偷师,学到了这项技术。
但这还是有一定门槛的,还是得学。尤其输入法就是个很大的障碍。很多老人和不识字的小孩子就不容易学会。输入法没问题的用户,使用软件的时候,还是要在各种菜单里寻找自己需要的功能,设计画图类的工作,还要通过鼠标或者触摸,一点一点的拖啊拽啊改啊,非常低效。
但今天普及之后,将使我们进入新一代交互方式:
第三代交互方式:NUI自然用户界面( User )
我们人之间每天互相交流就是通过听和说,这就是自然用户界面。自然界面是人人生来都会的,不用学,是因为它本来就是我们互动的方式。
虽然现在还主要是靠打字,但只是过渡。因为它什么都听得懂,接得住,是天生应该通过语音来使用的。我相信很快推出的独立 App,会支持语音。
我这么讲了以后,大家意识到为什么有些敏感的观察家会说将杀死搜索引擎了吗?对,搜索引擎还是第一代交互方式——命令行界面,是上古时期的用户体验。基于语音的自然界面,对它是一种跨代、降维打击。未来,也很容易多媒体化,会支持图片、视频、音频,这些方面的研发都已经在最先进的实验室里(比如和智源)如火如荼的进行中了,而且进展很快。
最终,与之匹配的智能设备会是什么?之前小扎(指扎克伯格,Meta创始人)认为是VR,现在看不太像,他自己也承认现在AI更重要了。
我觉得AR眼镜(能看能听的)最有可能成为取代手机的主流计算设备,当然爱美的女同学可以戴隐形眼镜。我戴着眼镜进来会场一扫,哦,这是我的老朋友张义,这是三块钱搞的活动,每个同学他都能认出来,而且记住。它也能记录所有我说的和我听到的话,我看到的事情。第一人称视角,跟钢铁侠里面的贾维斯一样。这样系统会和我是一样的体验,获取我接受的所有数据,它作为一个个人助理,会最懂我,也能给我最贴近需求的服务。
最懂我们的数字助理将成为我们获取信息的主要入口。那个时候,手机就消失了,App可能也都不需要了。要知道,现在的科技巨头大多是手机和App公司。所以这里的颠覆是巨大的。
我们再来看里的GPT。
02
第二个角度:GPT=通用智能大模型AGI
到底是什么?中国投资圈喜欢说AIGC(AI生成内容, AI ),国外喜欢说GAI(生成式AI, AI),其实这些表述都有一定的误导性。正确的表述应该是AGI( )或者通用人工智能大模型。
从一开始就是要做AGI的,因此他们CEO之前在上对 AI这个词大行其道表示过不满。
为什么呢?AGI或者说通用人工智能,是指人工智能系统能够干普通人能做的任何事情,并不只是生成。GPT的大思路其实是认为人类智能各种表现,本质上都是通过生成完成的,都是根据已有的一些信息,产生下一个词、再下一个词。比如我们所谓的理解,其实是收到一些信息后,生成一段自己的话,表示类似的意思。仔细想想,情感、意识、自动驾驶,其实也是这样,我们之前认为的很神奇的人的行为,这么看,也并不是那么神奇。
称GPT这样的技术为AIGC或者生成式人工智能,把这个大思路想小了。
这部分其实挺技术的,我来试着带大家理解其中最重要的思想脉络。
1. 背后的大脑——GPT
仅仅有语音为主的自然用户界面是不够的,因为之前Siri、Alexa和小度之类的语音应用也火了一阵,但慢慢就没有太多人用了。
只是冰山一角,本身看上去似乎只是个交互界面。而且根据《纽约时报》报道,这个轰动世界的交互界面,是一个因为有竞争,团队停下手中的活,用了13天临时赶出来的一个产品。
它真正强大的,是底下巨大的通用人工智能模型——GPT(最新的版本是GPT-4了)。
什么叫模型呢?可以比较粗略地理解为一个函数。
比如我们在中学都学过的函数:y=ax+b,也可以叫它模型,这个模型只有两个参数:a和b。
GPT-4的参数量没有公布,但GPT-3的参数已经高达1750亿……大家想象一下,这该是多么复杂的函数,参数多到人已经无法理解也无法解释了。
为什么要把参数搞这么大呢?简单地说,就是因为自然界最聪明的机器——人脑也是这样的。
我们知道,人脑主要是由神经元细胞组成的,一个神经元大概长成这样:
除了绿色的细胞核部分,左边很多树枝似的叫树突,负责接收其他神经元的信号,右边长长的叫轴突,负责输出信号给其他神经元。这些突起之间通过突触传递信息。人脑大约有1000亿左右这样的神经元,100万亿个突触。就是这么简单的结构,一旦它们形成了一个复杂网络,就使我们每个人变得这么聪明,能学会很多东西,能产生感情,能思考,有自我意识,还能彼此合作……
现在最先进的人工智能系统(以和GPT-4为代表)和人脑类似,也是由许多人工神经元组成的。人工智能模拟人类的神经元,抽象成数学表达,就是下面这张图。有x输入(变量),w神经(参数),b神经元,a输出(输出也可以很多个)。大家看,是不是很像上面的大脑里的神经元?
先进的人工智能系统也是用很多很多这样简单的人工神经元组成的,当然里面细节非常多,有很高深的数学和计算机知识。
具体长什么样呢?和GPT-4都没有论文,找不到很直观的比较详细的架构图。我们用2012年的的图来感受一下。有152层,几十万神经元,总参数是6000多万。
这个分层示意图上的数字表示这一层上神经元的数量,比如最右边的1000、2048等。有些层上的数字比较小,需要将数字相乘,所以有些层神经元是上万的。
大家不要小看,这是我们中国人在这十几年人工智能领域最高成就,也是全世界都认可的,论文引用数已经接近16万了,非常恐怖的数字。2012年,当时在微软亚洲研究院的孙剑老师(去年不幸英年早逝,非常非常可惜)带着何恺明、张祥雨、任少卿一起,通过,第一次将计算机视觉的水平提升到超过了人类。
而2020年,第一个大模型GPT-3诞生,最近GPT-4出来,把语言甚至某种意义上把通用智能都攻克了。
GPT-3有几十亿个神经元,一共有1750亿个参数。参数和人脑的突触是对应的,所以GPT-3大致相当于人类大脑的千分之一水平。GPT-4的参数量没有公布,但从负责人在此前采访的口气来看,很可能没有数量级的提升,更多是在原来规模上优化。
这是因为,千亿规模的大模型,潜力仍然还没有挖尽。那什么叫大模型呢?
2. 小模型与大模型
大家可能不知道,原来搞AI的专业工作者其实分工非常细的。甚至早几年大家一般不说我是搞人工智能的,而会说我是搞NLP(语言)、视觉、语音、机器学习的,比较新的结合商业需求又出来推荐系统、广告、调度、自动驾驶等等。而且往往还能分得更细,比如语言里有机器翻译、阅读理解、问答、文字生成……,就好像语文考试里面的不同题型,每种题型就是一门学科。
为什么分得这么细,因为具体做法都不太一样。简单地说,大家都在训练各种小的专用模型,而且模型规模都不大,几千万、几亿参数就了不起了。所以从现在来看都是小模型。
而大模型呢?GPT全名叫 (中文意为生成式预训练,这是自己的称法,而不是媒体更喜欢说的 ,那是的BERT论文里搞错了,才这么叫开的)。
第一代GPT是2018年6月发布的,参数量是1.17亿。
2019年2月升级为GPT-2,和同代搞的BERT都是10亿级参数的模型。
而2020年5月,GPT-3一下子干到了1000亿这级别上,提升了两个数量级。这是人类历史上第一个这么大规模的人工神经网络,也就是现在已经比较常见的“大模型”。
此外,还在网页()、图片(、DALL·E)、代码(CodeX)、音乐()、语音()等方面也做了很多工作。
GPT系列论文的思路非常一致,就是尽量选择简单的架构,用更多高质量的数据、更多的算力训练出更大规模的模型,而且各个环节尽量减少人工干预。目的只有一个,模型能像人脑一样,更加通用,完成各种任务。到了GPT-3这个千亿模型,这个想法基本上实现了。
而现在、GPT-4这种更新的大模型出来,效果更是惊人,AI似乎什么语言任务都会了,而且理解和生成能力都特别强。GPT-4在主要人类识别人才的许多考试都能考到优等生的水平。
大模型为什么这么神奇?首先是我们前面讲到的,它和人类大脑的原理类似。更有意思的是,研究发现,大模型和小模型相比,真的有一些突变。
3. 大模型的突现能力
GPT-3和其他大模match型出现后,研究人员对比之前的小模型,发现有神奇的事情发生了,大模型突现出一些此前从未出现过的能力。
比如你让它做一个复杂的数学题,一开始它会给出一个错误答案。然后你可以说:错了,再仔细想想、一步一步来。咦,你发现它马上就改成按步骤来算,就算对了。这种能力骄傲思维链。
有研究人员总结出100多种这类能力。请注意,在10亿以及小几百亿参数的小模型里,是没有这种能力的,只有大几百亿的大模型才会出现。
所以,大模型真的有点像动物进化,我们知道鱼会游泳,鸟会游泳,狗的嗅觉很灵,猎豹跑得很快超级敏捷,但它们的大脑是没那么聪明的,远不如灵长类。这就是小模型和大模型的区别。神经元的数量还是极其关键的。
03
第三个角度:=AI时代的操作系统
如果说前两个角度分别是从用户和技术角度来看的话,我们接下来要从产业角度进行分析。
大家都知道之前信息产业最核心的部分一直是操作系统,PC时代是,移动时代是iOS和。而且操作系统天然具有垄断性。芯片也很重要,但芯片相对被动,这也是为什么移动时代并没有出现统治性芯片公司的原因。
加上大模型不仅提供了交互界面,还提供了通用能力。而界面+通用能力,就构成了操作系统。
操作系统意味着什么?它不仅提供用户入口,而且所有的计算资源都是由它来管理。更可怕的是:过去的操作系统还不是智能的,是智能的操作系统,它会越变越强,可能具有终极性。
将是AI时代的操作系统,影响非常巨大。
我们中国是没有干成过操作系统的,操作系统一直在美国人手里。这一波如果不赶上,将错失AI时代操作系统。已经明确不对中国开放,未来再这样发展五年、十年,我们有可能成为一个相对低智能的社会。
在科学史上也有GPT这么一个缩写,正好是另一个解释: ,也就是通用技术。比如电力、蒸汽机、电脑、互联网……它们都是通用技术。它们的出现影响了各行各业,本身还能持续改进,会发展出更多与之匹配的互补性技术,引发连锁创新。
我们都知道之前的通用技术带来了怎样的巨大影响。
机遇和挑战同在,我希望中国更多的有识之士、有能力的人,投身于这个方向,拥抱新时代。
扫描下图海报
加入光年之外的朋友圈刘江马占凯等领衔出品
输入优惠码,就可以以199元的价格购买到这个产品
作者 | 刘江老师
文字整理 | 牛哥
编辑|雷锋哥
场地合作| 氪空间学院8号创新中心
礼品赞助|本来生活李敏美团 袋鼠团建
投稿/加入社群| (微信)
培训/咨询/品牌/招聘合作| (微信)