最近,比尔盖茨在 回答网友提问。有人问当下‘巨大的技术变革’是什么时,他回答说:
‘AI 是个大人物。我不认为 Web3 有那么大,或者元宇宙本身的东西是革命性的,但 AI 是相当革命性的。’( 翻译)
‘AI 是重要的。我不认为 Web3 那么重要或者说单独的元界是革命性的,但 AI 是相当革命性的。’( 翻译)
能和盖茨在 Web3 和人工智能的判断上一致,让我很开心。
另一件事,发生在朋友圈里。网易副总裁、杭州研究院执行院长汪源在讨论微软加大投资 能否赚钱时,说到:
这句话透露了两个信息:1. 网易杭研在大面积尝试应用 的能力;2. 为此要付不少服务费,但也愿意。
在网易工作过的都知道,要做一件对外付很多钱的事情,那一定是下了很大决心的
可是,就在两个月前, 还没有发布 的日子,业界对 AI 其实是悲观的。
L4 级自动驾驶被证明太难做到了,很多公司开始放弃。我有一个在头部公司做核心算法的朋友,已经选择转行了。
AI 四小龙也风头不再,探索出的业务模式变成外包项目为主,且技术含量越来越低。
为什么 一推出,会带来 180° 的态度变化?
这两个月,我和 对话数百条,参加了三场相关的研讨会,与十几位学术界、企业界的专家交流,当然也读了很多资料,对以下问题形成了一些观察和思考。
与以往的 AI 不同在哪里?它为什么有可能成为通用人工智能?
通用人工智能对信息技术行业最直接的冲击是什么?
商业机会在哪里?
行业格局会怎样?
个人职业发展会受到什么影响?
下面就谈一下我的观点,期待你的批评指正。
一、‘大模型’敲开了通用人工智能的大门
用的方法叫‘大型语言模型(Large )’,简称 LLMs。中文习惯称为‘大模型’。
简单说,它的思路就是把尽可能大量大量大量大量的数据通过 架构做机器学习,就能从数据中学到很多很多很多很多能力,多到超出原始设计者的想象。
比方说,它在翻译方面的能力,不输于,甚至超过了专业的机器翻译系统。
本文开头机翻的比尔盖茨的话,我觉得 就比 翻译得要好上一个层次。唯一瑕疵是用了比较生僻‘元界’,而不是更常用的‘元宇宙’。但当我告诉它‘元宇宙’更常用后,它立刻就能修正翻译:
据说,翻译能力并不是 特别着意打造的,它只是读的多语言数据多了,就会了
再比如, 偶然把源代码加到了训练数据里,结果发现 AI 的推理能力获得了巨大提升。
传闻说, 在发布时,只是被当成又一个新版本的 demo 而已, 并没觉得它会多强大(前几个版本市场反应也是寥寥)。是网友贴在社交媒体的对话截图,让 才知道,原来它还能这样这样这样这样这样!
有没有一丝丝觉得, 的机器学习能力,已经很像人类的学习过程了?
让小孩子学编程的主要原因,是锻炼孩子的逻辑思维能力。这不和 AI 读代码学推理是一回事吗?
古人就说,‘读书百遍其义自见’,‘熟读唐诗三百首,不会作诗也会吟’。如果有一个少年,他可以不眠不休地快速读书。我们不知道他读完全世界所有书之后会是什么样,但相信他一定会很厉害。
如此接近人,让很多专家承认,我们终于敲开了通用人工智能( ,下文简称 AGI)的大门了!
以前的 AI,不是 AGI,是因为它们的模型只能做一件事。人脸识别的就是识别人脸,缺陷检测的就是检测缺陷(且只能检测一种缺陷,换了缺陷就得换模型)。 只会下围棋,换成五子棋就会被我狂虐。
而 已经能够触类旁通,把从 A 学到的能力,用在 B、C、D、E、F 上。
学术界用‘涌现()’这个词来表述这种情况。请记住这个词,后面还会用到。
延续 的一个研究热点是多模态大模型。简单理解,就是把语音、图像、视频等等各种类型的数据都灌进去,看能否用一个模型解决所有媒体的 AI 生成问题。
如果成功,那么再大胆假设一下,凡是数据,是不是都可以交给这个模型训练,让它学会如何从 A 生成 B?比如,从剧本直接生成电影,从 PRD直接生成可执行的 App,从口头描述直接生成 3D 人物,从需求直接生成一切!
顺着这个逻辑,距离 AGI 是不是不远了?可别那么乐观。
现在只是打开了门。既不知道门后有什么,也不知道是不是开对了门。还有太多太多未知要面对和解决。
但这并不妨碍我们思考下,AGI 的世界,会对产业和我们个人带来什么变化。
有的变化,可能已经开始了……
二、AGI 的革命性不仅体现在智能本身
假定 AGI 已经实现。那么用 AI 可以代替人力,提升生产效率,降低生产成本,在更多领域释放 AI 的力量。其革命性毋庸置疑。
我想从另一个角度来探讨其革命性,那就是对信息技术自身的影响。用这样的终局思维,可以倒推出当下要做什么。
我认为,革命性的技术应该满足至少一个标志:
它让几乎每个软件系统都要做改造,甚至重做
符合这个标准的技术,之前有:
图形界面。成为软件系统的标配
Web 2.0。导致大量传统应用系统向 Web 迁移
移动互联网。导致几乎任何应用都要开发移动版。
Web3 不符合这个标准。我另有一文看衰它。
元宇宙当下和近期也不符合。AGI 实现之后,太多人无所事事,倒是有可能在元宇宙里醉生梦死。我会在本文最后一部分做分析。
我认为 AGI 是符合的。它能让所有软件系统几乎都要改造甚至重做,哪怕其核心功能并不需要智能。这是因为它重新定义了‘接口()’。
无论用户界面(UI),还是软件系统之间的接口(API),它都会重新定义。
现在我们想要一个结果,需要去了解计算机的能力,掌握各种软件的操作方法,还要把自己的意图正确拆解为若干个操作软件的步骤,执行之,才能得到。
AGI 之后,人类终于可以用‘说话’这种方式和计算机交互。说话不方便时就打字。打字费劲?脑机接口可以期待下。
‘说’出想要的结果,就能得到结果。可能不尽如人意,再‘说’出修改意见,效果即时呈现。当 UI 已可以如此美好,碰鼠标、摸屏幕的频率都会降低。
用户操作习惯的迁移,会逼所有软件,都得提供‘自然语言界面( ,简称 NLI)’。这是我生造的词,指的是以自然语言为输入的接口。
不仅用户界面要 NLI,API 也要 NLI 化。这是因为用户发出的宏观指令,往往不会是一个独立软件能解决的,它需要很多软件、设备的配合。
一种实现思路是,入口 AI(比如 Siri、小爱同学,机器人管家)非常强大,能充分了解所有软件和设备的能力,且能准确地把用户任务拆解和分发下去。这对入口 AI 的要求非常高。
另一种实现思路是,入口 AI 收到自然语言指令,把指令通过 NLI 广播出去(也可以基于某些规则做有选择的广播,保护用户隐私),由各个软件自主决策接不接这个指令,接了要怎么做,该和谁配合。
第二种思路,我认为更有可能成为行业标准。单 AI 搞定一切不太符合目前的技术路线和商业环境。各个软件在各自的专业领域里,能做出更佳的 AI 决策。第四部分会详述。
举个例子,我对 Siri 说:‘我得新冠了’。Siri 把这句话广播给手机上的所有 App。于是,大家开始各自干活:
Apple Watch打开了 24 小时血氧监测模式
米家 App让空调提高温度,并询问我是否马上躺下休息,它可以关闭灯光和窗帘
饿了么建议我吃清淡食物,并推荐几款粥做明天的早餐,让我选择、预订
叮当买药推荐了附近能最快速度送到的退烧药,问我是否下单
猫眼电影建议我取消后天的电影票
Keep 通知我已取消未来一个月内预约的所有操课,还暂停了所有打卡
钉钉帮我起草了病假申请
微信问我要不要发个朋友圈?
当 NLI 成为事实标准,那么互联网上软件、服务的互通性会大幅提升,不再受各种协议、接口的限制。
比如现在华为、阿里、腾讯等都在争抢的物联网操作系统,表面看好像是在做内核,其实本质上是想成为最重要的那个万物互联的协议。
万物想要互联,大家首先要遵守同一个协议。谁的协议成为主流,谁就拥有了最高的话语权。
兼容多种协议,对厂商来说要增加很多成本。如果不兼容,就变成了所支持协议的附属。如果有个通用协议,就好了。
自然语言就是最好的通用协议,谁都可以兼容,谁都无法控制。甚至,说汉语、英语、爪哇语等任何语言都行。
在实现层面,NLI 的接口能极致简单。看看 的 API 就知道了。
强大如 ,无所不知,无所不晓,却只有一个接口函数(https:///docs/api-/),16 个参数。
16 个参数里,最重要的只两个:model 和 。其余的都是对生成结果的细节做控制,比较低频。
Model 是选择调用哪个模型。不同模型能力有所不同,价格也不同。
是最核心的参数。它就是你在 聊天框里输入的内容。完全自然语言,想怎么写都行。
所以,NLI 可以极简到甚至只有一个 参数,就能让所有软件系统形成协作。所有复杂的细节,都被处理 的 AI 解决了。
人与人,人与机器,机器与机器,都实现了无限制的交流。
为了支持 NLI,所有软件系统都必须集成一个 AI,以 AI 为总控来处理输入,生成输出。这就是 AGI 对信息技术领域带来的革命性变化。
其实相关的研究早就已经开展。在面向对象(-)之后,就有人提出面向智能体(Agent-)的概念,认为多智能体自治是未来构造软件的主要架构。可惜,当时没有人知道‘智能’在哪里。20 多年后,这项研究可以落地了。
三、AGI 革命带来的商业机会
敲开 AGI 的大门,会看到很多很多弯弯曲曲的道路,都有可能通向 NLI,也可能不通。不管结果如何,现在路边就有可以尝试挖掘的金矿。
及 DALL-E 等从文字生成图像的产品,被统称为 AIGC(AI )类的产品。
它们的基础能力是根据一串输入(),生成各种内容并输出。本质上来说,所有的软件系统,都是根据输入,生成输出。所以理论上来说,只要 AI 的能力足够强,是可以完成目前计算机能处理的所有任务的。只不过要从效果和成本两个维度看用 AI 还是传统方法更合适。
评价效果的分水岭,是我们把 AI 的输出当建议,还是当决策。
我们让 写文章,但不会让它直接把文章发出去,而是一定要看过、改过再发。这就是把 AI 的输出当建议。
自动驾驶,该加速还是减速,该怎么转向,都是 AI 做出决定,并立即执行。这就是决策。
现在的 AI 经常‘一本正经地胡说八道’,让它决策非常不靠谱。所以目前的 AI 产品,应该在‘建议’这个场景下做设计,把修正和决策的空间留给人类。
对话是典型的建议场景,因为对话结论的执行还是需要人。 呈现的也就是一个 ,很容易自然想到在各种对话场景来使用它。比如客服、智能音箱、AI 老师等。
我认为能成功的 AI 对话场景要满足如下条件:
用户需要知道是在与 AI 对话。否则,就是诈骗了
对话频次要足够高。没人愿意为使用 AI 付高价,所以它不可能是低频高客单价,只可能走高频低客单价。比如 目前虽然 C 端访问量巨大,但多数人都是猎奇,频次不会高。刚需高频访问的,只有研究它的人。这类人虽然支付能力强,但人数非常少。所以我认为 即将推出的每月 $42 的 版太贵,就是用来收割研究者的,不会获得商业成功。
现在的 每次对话成本大约 1 美分。如果按每人每天会使用 5 次搜索引擎看, 想替代搜索引擎,每月成本就是 1.5 美元。但对我来说,抛开研究因素,1.5 美元的月租我都不会付。因为它输出的结果,远没到让我愿意抛弃免费的搜索引擎
我们和人对话,不外乎希望获得有价值的信息,或者有温度的抚慰。按照这三个条件看,有价值的信息是能符合的。
客服毫无疑问是成功的场景。事实上客服界早已经被 AI 统治了。大模型给对话能力带来恐怖的提升,且降低了限定领域内的预训练难度。虽然当前成本可能比传统 AI 有所增加,但这是肯定会下降的。综合来看,客服全面迁移到大模型是很可以期待的。
AI 老师也值得期待,毕竟真人老师 1v1 的成本太高了。虽然有胡说八道之嫌,但足够的领域数据做训练,再加上测验和真人补差,效果可能比全真人老师更好。
我的朋友高老师,是个教人工智能的名师。他在自己的学生群里,就接了个 回答学生的 问题,完全省下了助教的费用。
前面说过, 是用大量代码做过训练的,所以解答编程问题的靠谱度还是可以的。其它学科领域只要做了足够训练,相信也能不错。
而有温度的抚慰,多数情况下,AI 提供不了。
比如,AI 心理咨询我认为不会成功。因为咨询的核心需求是得到共情、认可和偶尔的棒喝。从 AI 获得这三样,就算话是对的,感受也是错的。‘只有 AI 接纳我’‘我 tm 还不如一个 AI 想得通透’,只会增加咨询者的心理负担。
单纯的闲聊,AI 不具备成本优势(找朋友闲聊是免费的,还能增进感情),也没有温度。它再会聊,也不会形成高频。
但不具备和真人聊天条件的场景,是有可能成功的。
比如和逝去的人对话,模仿 ta 的声音和说话习惯。在一些关键时间节点,能卖出高价格。但我觉得,让活着的人尽快和逝去的人完成分割,才是最大的善。
有人想做模拟名人的 AI。这个不会成功。我们都知道巴菲特午餐卖的并不是午餐,其实也不是和巴菲特说的那些话,而是我做过这件事本身。和 AI 巴菲特聊天,完全不可能达到同样效果。和刘德华、林志玲、鹿晗聊天同理。
不过也有特例。和名人 AI 聊真人不可能聊的话题,有可能成。比如和志玲姐姐聊不可描述之事……当然,这肯定是违法的了。
除了对话,另一类应用大模型的场景是辅助创作。
写文章、画画、编代码,都已经有成功例子。从中可以看出,AI 一定要集成到人工创作的场景里,才最好用。在这样的场景,才能行云流水地给 AI 提需求,和修正、发布 AI 给出的建议。比如我,已经决定对集成到 VS Code 里的 付费了,但用 辅助写代码就太绕了。
按照这个模式推论,所有创作场景,都值得尝试下 AI 辅助。比如低代码开发,运营活动页搭建,短视频剪辑,BI 图表制作等有经验的人已经干腻了,没经验的人又干不好的场景。
AI 肯定比没经验的人干得好,且因为替有经验的人完成了大量乏味工作,而获得认可。
在没有获得‘决策’能力之前,大模型不太容易扩充新的应用场景。只能不断深入。
个人大模型,可能是个值得深入的方向。让通用大模型具备个性化能力,就能做带有个人风格的对话和创作。也许不能解决当下的痛点,但当做期货卖个未来,还是有可能吸引一些猎奇人士付费的。
四、对‘大模型’行业格局的预测
每次技术突破,都可能带来行业洗牌,形成格局巨变。但大模型,可能不会。
这要以大模型成功的四个核心要素来分析。这四个要素是:
算法
数据
工程技巧