以大模型为代表的生成式AI,可以说是今年全球科技圈最火热的概念,甚至没有之一。
在不久前闭幕的世界人工智能大会上,无论是以BAT为代表的传统互联网大厂,还是华为等ICT企业,亦或是科大讯飞、商汤科技这种本来就带有AI标签的公司,都在展示大模型能力。
下游应用中,有的厂商展示了AI大模型的聊天、写诗、作画能力,有的则展示了大模型的编程、建模能力,还有的企业专注直接行业结合,强调自己的大模型“不作诗,只做事”。
当大模型爆火了大半年之后,复盘变得很有必要,同时也有很多专业问题亟待解答。比如,如今的生成式AI和前些年火热的AI概念有没有本质区别?催生生成式AI的关键技术有哪些?如何看待国内互联网大厂的大模型“军备竞赛”?中美大模型的发展有哪些差距?我们离真正的通用人工智能(AGI)还有多远?等等。
针对这些外界普遍关心的话题,观察者网近期深度专访了《生成式人工智能》作者、美国俄亥俄州立大学人工智能专业博士、美国全球数据科学平台创始负责人丁磊。
丁磊
以下是专访实录:
观察者网:几年前掀起过一轮人工智能热潮,但热度很快冷却了。如今这种大模型再度引发人们对AI的高度关注。在您看来,和所代表的两个AI发展阶段,有什么本质不同?另外,会不会也像一样,很快失去热度?
丁磊:首先可以这样类比一下,人类从一个婴幼儿成长为成年人,需要漫长的过程,同时也需要花很多时间去学习,而的训练过程相当于人类的成长过程。现在可以说在一定程度上已经拥有成年人的通识水平,并且具有一定的逻辑推理和常识理解能力。
作为对比,只是一个人工智能围棋机器人,而人类能在相对较短的时间内学会下围棋。我认为所具有的知识和逻辑,让一个人去学习的话,肯定比学习下围棋的时间要长。所以的里程碑式意义更大,但不是说就没有意义,只是模拟人类学习的意义更大。从人脑学习的层面来看,跨越时空的尺度肯定比更大,因为学习围棋相比于学习常识和逻辑,需要的时间更短。
从第二个层面来说,并不是一个普通的AI机器人,它以击败围棋世界冠军柯洁而名声大噪,背后依靠的主要是强大算力。虽然围棋是比较复杂的棋类,但它是有规则的,通过大量的数据学习就能做到很优秀。在我看来,这种AI机器人更像是在规则之下,通过大量数据不停地强化和迭代的过程,而处理的是人类自然语言,相对更复杂。
处理的主要是围棋数据,格式相对简单。虽然围棋中的内涵逻辑,包括取胜的规则也挺复杂,但它的底层数据结构更简单直白。而对应的是人类自然语言数据,存在的形式更为复杂、多样和多变,这也就从另一个角度印证了是AI领域更大的突破。
观察者网:能否这样理解,和其实是一种进化关系,在进一步进化之后,就可以成为这种AI大模型?
丁磊:尽管二者在算法上有一些相通性,但并不能完全说是进化。换个角度来说,其实下围棋的程序早已存在,虽然可能没有那么优秀,但很早就出现了。而作为一种可以跟人类自然交互的聊天工具,之前是不存在的,所以它突破性更大。夺得围棋冠军,引起很大的轰动,主要因为算力算法更强更优秀,它更像是一种量变。而在之前的自然语言对话工具完全不能用,很多场合下像“人工智障”,而现在基本超越了一些人认为能用的阈值或限度,所以它更像一种质变,在一定程度上突破了可用的边界。
观察者网:之前看到一种说法,AI 1.0时代是在海量数据库中做快速比对,而的突破之处在于,它可以基于大数据集自己生成内容,并不是简单的比对和匹配。这意味着掌握了一定自学习能力的AI,技术迭代速度大幅提升,进入2.0时代。您如何看待此种说法?
丁磊:不能完全说是匹配,它也拥有一套深度强化学习的模式,但不是生成式,而是生成式。可以理解为早前那种判别式AI,也可说是决策式AI。
从技术路径来看,决策式AI的主要工作是对已有数据“打标签”,对不同类别的数据做区别,最简单的例子如区分猫和狗、草莓和苹果等,干的主要是“判断是不是”和“区分是这个还是那个”的活儿。生成式AI不一样,它会在归纳分析已有数据后,再“创作”出新内容,如在看了很多狗的图片后,生成式AI会再创作出一只新的狗的图片,实现“举一反三”。
从成熟程度看,决策式AI的应用更为成熟,已在互联网、零售、金融、制造等行业展开应用,极大地提升了企业的工作效率。而生成式AI的“年岁更小”,2014年至今发展迅猛,堪称指数级的爆发,已在文本和图片生成等应用内落地。从应用方向来看,决策式AI在人脸识别、推荐系统、风控系统、机器人、自动驾驶中都已经有成熟的应用,非常贴合日常生活。生成式AI则在内容创作、人机交互、产品设计等领域展现出巨大潜力。
观察者网:您在新书《生成式人工智能》中提到,与模型的出现密切相关,已成为深度学习最亮眼的成果之一,但很多人不明白什么是,为什么这么重要?除了,催生这类大模型的关键技术还有哪些?
丁磊:提到,大家肯定首先想到的就是“”这个词,也就是“转换”的意思。而顾名思义,也就是“转换器”的意思。为什么一个技术模型要叫“转换器”呢?其实这也正是的核心,也就是它能实现的功能——从序列到序列。
序列到序列模型( to )是在2014年提出的。所谓序列,指的是文本数据、语音数据、视频数据等一系列具有连续关系的数据。在序列到序列模型中,只要能编码成序列,输入和输出的可以是任何形式的内容。而序列编码形式非常广泛,我们日常做的大部分工作都可以编码成序列,因此这种模型可以解决很多问题。
2017年出现的模型,在序列到序列模型基础上有两大提升,分别是采用多头注意力机制和引入位置编码机制,能够识别更复杂的语言情况,从而能够处理更为复杂的任务。在模型中,能输出或生成的内容更加广泛,包括文本、图像、语音、视频以及更广义的内容,例如它可以生成报告、策划方案、代码以及程序等,是通用型的模型,可以生成任何我们需要的内容。目前国内外的大厂,都在基于技术推出自己的模型。
而且模型底层是开源的,每个人都可以利用技术,然后就是看谁可以设计出更加精巧的模型结构。现在是基于GPT模型的,未来可能有更新的GPT模型结构,我们可以去改进它。也就是说,首先我们能改变模型结构,其次我们有没有更多更好的数据去训练模型,第三就是如何去训练一个类似的模型,这也是很有讲究的。
这三点也可以这么理解,就像教育小孩一样,首先要有一个类似人类大脑的框架在那里,也就是模型的结构;其次是训练模型的数据,相当于给小孩看什么样的教材、讲什么样的课程;第三是如何培养孩子,也就训练的方法。这三点,决定了我们能训练出什么样的模型。
(资料图)
观察者网:现在很多互联网大厂在宣传自己模型的时候,更喜欢突出千亿甚至万亿的参数规模,这导致行业在模型参数上展开“军备竞赛”,业界也似乎秉持着“模型越大越好”的观点,您如何评价这种观点?我们该如何认识一个大模型的水平?
丁磊:大模型或模型大只是单一评价维度,大公司喜欢突出参数规模,是因为他们可以调动的资源更多,比如在算力、数据等层面,他们更有优势,所以他们更偏向突出模型参数规模的优势。但是从客观角度来说,我觉得模型的“深度”更重要。
什么叫深度?是指模型在某一领域解决问题的能力更强,比如解决数学问题的能力更突出,或者在具体行业应用中,能把某一行业的问题解决的更专业,这就叫模型更深。如果一个模型只是够大,并不能解决相应的业务问题,或者是只能解决部分问题,给不出完全正确的解决方案,在很多情况下就会失去用处。因此,除了关注参数规模之外,还要看重模型的深度。
观察者网:能否这样理解,大模型的“大”代表的是通用性,如果中小企业没有能力去炼大模型的话,可以基于大厂研发的大模型,去做更加专用的行业模型来服务自身的业务?
丁磊:大部分的中小企业并不会去参与大模型的竞赛,相反他们会基于开源的大模型去研发,甚至也都支持在线的训练和迭代。也就是说,这些中小企业会利用一些开源的大模型,或者在线可以训练迭代的大模型,去解决他们业务场景的问题,来构建相应的“深模型”,这也是大部分中小企业应该走的路。
观察者网:现在布局大模型的大多都是互联网企业,像国内的阿里、百度、腾讯等,以及美国的微软和谷歌,互联网企业在做大模型方面有哪些独特的优势?
丁磊:互联网大厂在数据积累方面肯定更有优势,但我认为开源还是会成为整个行业的趋势,现在国内外都有开源的大模型,使用的数据大多也都是互联网上公开的,像训练使用的数据,大多也都是互联网上可以公开获得的。大公司获取数据的速度可能会更快,获得体量也会更大,但这并不意味着互联网巨头在大模型领域有绝对的垄断优势。我们之前分析过,实际上训练这种大模型,实力雄厚的创业公司或者一些中型公司,也都有能力来做这方面的事,不一定只有大公司才能做。
观察者网:中美在AI领域的竞争最引人关注。马斯克不久前曾提到,中美在AI方面的差距大约在十二个月左右。而国内一些厂商称自己的大模型部分能力已超越,并且很快将整体赶超。您如何看待中美在AI方面的差距,国内厂商能否迅速赶超美国企业?
丁磊:我觉得与其对比中美,不如对比训练模型这件事跟互联网思维模式的差别。各国企业其实没有本质差别,都可以做训练模型这件事,但谁能最终做出来,就需要一种新的思维方式。打个比方,包括谷歌在内的互联网公司研发产品,采用的是“养鸡模式”,公司会将“养鸡”拆成不同的细分任务,多部门人员各自负责具体业务。
而训练GPT模型是“养娃模式”,它反而不需要那么多老师、厨师,核心人物只要少数。也就是说,它很难拆分成完全独立的任务,必须有固定父母站在全局角度,亲自教授培养孩子。所以在这种模式下,谷歌没有最早做出产品的原因很简单,现有体系很难在AI领域取得里程碑式的成功。训练GPT模型本质是一个很难拆解的事,需要公司领导层在技术、业务,甚至资本层都是专家。
另一个简单的例子就是,美国AI绘画工具,是由一家独立研究实验室开发出来的。包括创始人大卫·霍尔兹在内仅有11个人,除了他和财务、法务,核心只有8位研发人员。我也曾在IBM沃森研究中心有过一段工作经历,IBM的沃森人工智能也曾陷入这种困境——有太多的人参与人工智能训练,资源太多、研发不聚焦,造成项目没有持续取得成绩。
实际上,美国真正专注通用人工智能研发的知名公司也就两家——以及谷歌母公司下设的人工智能实验室。就目前披露的信息看,创始人奥特曼个人能力非常强,不仅懂技术,也懂商业运作,在运营过程中也鲜少受股东制约。是长在美国硅谷重视工程师地位的文化土壤里,有着强大的“工程师文化基因”,简单说就是工程师可以主导研发,拥有更大自主性,发挥创造性的空间更大。
但并不能代表美国的互联网公司。所以我认为,互联网公司在训练大模型这件事上,并不具有天赋基因。它们可以去学,也可以去适应,但它本身并没有这个基因。他们适合做一件事情,就是像“养鸡”这样的事,或者说更适合做大规模的生产,但训练模型更像是“养娃”,你不能把这个问题拆分,拥有1750亿个参数,我们没办法把它拆分成100份1000份,让不同团队并行去做,根本做不到。
观察者网:有没有可能判断一下,中美企业在大模型领域的差距,以及追赶的时间表?
丁磊:这个没办法给出明确的时间表,因为现在主要也就一家的大模型在各方面都比较领先。但是我认为,任何一家互联网企业,如果按照原来的运行模式,很难做出像这样的大模型,无论中国还是美国企业都一样。
观察者网:现在人们容易讨论的问题是,为什么会率先诞生在美国,而中国企业涌入大模型更像是跟风,您怎么看待这种问题?
丁磊:我在硅谷工作多年,非常了解为什么硅谷会出现以及奥特曼这样的人物——是硅谷的“工程师文化基因”造就了他们。其实也是一个异类公司,而硅谷拥有技术驱动的传统文化,可以去忽视短期利益去做长期投入。以及奥特曼,本身也有较强的资金基础,使他们可以进行大规模投入,而大部分公司并不具备做这种事情的先决条件。
观察者网:我们都知道,人工智能有三驾马车:算力,算法,数据。在生成式AI概念中,这三驾马车的重要性有大小之分吗?眼下英伟达的GPU成为稀缺品,国内AIGC的发展会因为算力因素受限吗?
丁磊:数据、算法和算力都很重要。但是我认为,数据现在比较容易获得,很多数据都是互联网上的数据,可以很容易获得。最核心的还是算法,这关系到模型训练的效果。
观察者网:国内很多企业现在训练中文模型,需要使用中文语料,而中文可使用的语料可能没有英文那么广泛,这会不会导致中美大模型之间产生差距?
丁磊:这确实是个问题,英文高质量的语料可能比中文要多,但这其中是不是也可以考虑做一些跨语言的翻译,然后再做模型训练。
观察者网:自爆火以来,无论是马斯克还是的高管,都提出要对人工智能进行监管,甚至还有逾千名专家呼吁暂停巨型AI的研发,他们在担心什么?
丁磊:我觉得有几个方面的因素。首先是目前行业对于巨型AI怎么应用,还没有准备好,可能会产生一些担心。其次可以推测,这其中不乏可能有一些商业利益的考虑,比如说我没造出来,你也别造。第三就是对社会而言,我们要做到科技向善。对技术的发展来说,其实一定程度上是很难停滞的,尤其是提升生产力的技术,很难去暂停它的发展。
但是从政策法规角度进行适当的监管,这个是完全有必要的。比如说我们国家也出台了《生成式人工智能服务管理办法》。因此,怎么监管人工智能的发展是更加重要的,而不是说暂停,我认为呼吁暂停研发本身还是有一定的片面性。
丁磊新书《生成式人工智能》
观察者网:您在《生成式人工智能》一书中提到,AGI(通用人工智能)的出现将推动社会产生极具颠覆性的发展。这种大模型可以被看做是AGI吗?距离实现真正的AGI,我们还需要跨越哪些门槛?
丁磊:作为人工智能领域的一个中长期目标,AGI技术要不仅能够执行特定任务,而且能够像人类一样通盘理解和处理各种不同的信息,这样才能成为具有与人类类似或超越人类智能的计算机程序。虽然等模型在自然语言处理方面取得了一些进展,但仍然需要进一步研究和发展,才能逐步向着AGI的方向发展。
我认为,要真正实现AGI必须满足几点要素。
首先是跨模态感知,我们将平时接触到的每个信息来源域称为一个模态,这些来源可以是文字、声音、图像、味觉、触觉等等。人类天然具有跨模态感知能力,能够对来自多种感官的信息进行整合和理解。而当前绝大部分的人工智能系统只能单独运用其中的一项作为传感器来感知世界,对于不同模态,需要设计不同的专有模型。
第二是多任务协作,比如说给机器人发一条指令,让它帮忙拿一杯茶,它就会进行指令的理解、任务的分解、路线规划、识别物体等一系列动作,现在像这种大模型还不具备多任务协作能力。因此,多任务协作是AGI最重要的研究方向之一,旨在让“通用性”体现为不仅能够同时完成多种任务,还能够快速适应与其训练情况不同的新任务。
第三是自我学习和适应。人类具有学习和适应能力,能够通过不断的学习和经验积累来提高自己的能力。因此,研究如何让人工智能系统具有自我学习和适应能力也是实现 AGI 的必要步骤。其中主要包括增量学习、迁移学习和领域自适应三个方向。
第四是情感理解。能够理解并表达情感是人类最重要的特征,它在交流协作中甚至常常影响事件的下一步走向。当前,不少生成式对话系统的工作尚且将关注点集中在提升生成语句的语言质量,忽略了对人类情感的理解。
第五是超级计算能力。实现AGI需要庞大的计算资源和超级计算能力。为了提升这一能力,人们从不同角度出发,采取多种方法不断推进就像一辆汽车,人们不断升级油箱的容量、提高燃料的效率,以实现更远的行程。
观察者网:我们能把理解为是一个儿童,而AGI是一个成年人吗?
丁磊:我认为可以这么理解。