智东西
作者 | 云鹏
编辑 | 心缘
手机厂商们的大模型之战,山雨欲来。
刚刚,小米大模型突然亮相刷屏,并在C-Eval、CMMLU两个大模型测试平台中分别取得了第十名和中文向第一名的成绩,其C-Eval排名在阿里云的通义千问之前。
C-Eval榜单
要知道,C-Eval和CMMLU是目前业内公认的权威中文大模型基准测试,主要考察的就是大模型在中文领域的综合知识储备和语言理解能力。
CMMLU评估榜单
就在上周,华为的语音助手小艺也融入了自家盘古大模型的部分能力,用语音助手写个文章摘要、会议邀请邮件或者用自己的照片做个性化设计,都已经成为了现实。
国内手机厂商们在大模型这条赛道上,颇有“不鸣则已,一鸣惊人”的架势。一个已经落地应用,一个首次亮相就刷屏霸榜。
此前不论是自研芯片还是充电快充,手机厂商们似乎都是将“新技术”推向消费市场,让普罗大众都开始接触新技术的“排头兵”。
在基于大模型的生成式AI浪潮中,手机厂商们势必将迎来一场新的战事。
海外谷歌苹果都已经开始对自家的智能语音助手“动刀”,酝酿大模型的应用,国内这边,在小米大模型成绩公布之前,小米AI实验室主任王斌就已经对外讲述了小米在大模型领域的规划和进展,小米CEO雷军和小米总裁卢伟冰也多次在公开场合谈及小米大模型及相关布局。
荣耀这边,其CEO赵明提到荣耀已经就网络大模型方面的需求跟互联网公司进行合作,而看似低调的OPPO和vivo实际上也在AI领域布局多年,分别有AI模型在一些中文基准测试中名列前茅,并与一些AI大厂有所合作。华为这边,小艺已然落地。
虽然表面上波澜不惊,但手机厂商们的大模型之战已一触即发。各家明修栈道暗度陈仓,一场激烈的AI技术博弈好戏,或许即将上演。
一、小米组建大模型团队,荣耀OV或采用“自研+合作”模式
手机厂商用上大模型,无非两种方式,其一,自己做大模型自己用,其二,别人做大模型我来用。
目前来看,在华为、小米先行一步,自做自用之外,荣耀、OPPO和vivo并没有大模型相关布局的官方信息流出,其中OV两家均与其他厂商在大模型上有相关合作信息,但具体两者将采用什么方式,仍未可知。
首先我们来看今天刷屏的小米,其实小米的智能语音助手小爱同学,在各家的语音助手中应该说是名气最高的,也是用户范围最广的,小米的各类IoT设备几乎都已经接入小爱同学,而小米的IoT生态设备数量,又是各家智能手机厂商中最多的,小米曾明确表示小米AI大模型未来可能会与小爱同学结合。
不论是在财报电话会中,还是在一些公开采访中,小米相关高管都对于大模型有着积极表态,并详细解释了小米在大模型方面的布局和规划。
今年4月,小米CEO雷军亲自发文称,小米对于大模型技术将坚决拥抱,次月财报电话会中,小米总裁卢伟冰宣布公司已组建AI实验室大模型团队,AI领域相关人员超过1200人。
小米这个大模型团队的负责人是栾剑,向小米AI实验室主任王斌汇报,而王斌曾在中科院进行了20多年的NLP(自然语言处理)相关研究,于2018年加入小米。
在接受深燃采访时候,王斌提到,他们团队的目标是通用大语言模型,参数规模在几百亿,用于训练的设备投入是几千万人民币级别。而小米大模型落地产品会采用“混合模式”,传统模型和大模型各自解决其擅长的问题。
根据王斌所说,在之前,小米就做过大模型相关研究和应用,不过模型规模在几十亿级别,也并非通用大模型,主要是对话专用模型,用于人机对话。
小米这边,高管频繁透露信息,荣耀这边,其CEO赵明也没少在采访中透露荣耀对于生成式AI以及大模型的看法。
赵明在上海世界移动通信大会提到荣耀正在就网络大模型方面的需求跟互联网公司进行合作,当时他们已经在和有意向的公司进行接触。
目前百度的文心一言、阿里的通义千问、讯飞的讯飞星火都是国内互联网大厂和AI大厂推出的几个三方大模型,做自研大模型对于刚刚成立三年的荣耀来说并不是最重要的事,将市场份额和出货量做上去显然更为关键,因此合作可能会是荣耀应用大模型技术的方式。
OPPO这边,OPPO中国区总裁刘波曾在接受采访时提到,OPPO内部在思考大模型在手机端的应用。
今年4月,阿里云宣布将与OPPO安第斯智能云联合打造OPPO大模型基础设施,基于通义千问完成大模型的持续学习、精调及前端提示工程,建设服务于OPPO终端用户的AI服务。
从华为小艺的例子来看,将通义千问进行精调、优化,做出一个能够用于OPPO智能语音助手中的轻量版模型,是可行的。
不过有小米相关人士透露,OPPO和vivo可能也在做自己的大模型。
对此,我们也能从OV此前的一些动作中看出一些迹象。例如OPPO的小布助手团队此前一直在AI技术领域开展着大量研究,包括语音识别、语义理解、对话生成、知识问答系统、开放域聊天、多模态等等,而这些都是生成式AI相关的关键技术。
小布助手团队此前对预训练模型进行过探索和落地应用,自研了一亿、三亿和十亿参数量的预训练模型OBERT,OBERT也曾一度跃居中文语言理解测评基准CLUE1.1总榜第五名、大规模知识图谱问答.0排行榜第一名。
去年OPPO未来科技大会上,小布作画功能就用到了生成式AI技术,可以通过用户描述、上传的图片创作图画作品。
vivo这边,其AI团队在今年5月研发了面向自然语言理解任务的文本预训练模型3MP-Text,在中文语言理解测评基准CLUE榜单上,3MP-Text拿到了1亿参数模型效果排名同规模第一。
二、大模型落地手机,智能语音助手成为尝鲜排头兵
手机厂商们这样积极踊跃地拥抱大模型,是要做什么?目前已经能够确定的一件事,就是将大模型用在各家的智能语音助手中,让大模型成为自己手机的“系统级”能力,让手机的智能化程度更高,小助手们不再“智障”。
三星这边,正在考虑将手机、平板的默认搜索引擎从谷歌更改为微软的新必应,而新必应则支持AI聊天。谷歌在5月的I/O大会上发布了四个不同参数规模的新一代大语言模型PaLM 2,其中最小的“壁虎”大模型就可以运行在手机上。
苹果这边,有外媒曝料称其正在为Siri开发项目代号为“”的AI新功能,而新项目的技术框架被称为“Siri ”,如果曝料属实,Siri与生成式AI技术的融合也将成为必然。
大模型在智能手机语音助手中应用的潜力,是有目共睹的。
对于消费者来说,从现有的智能语音助手与大模型结合的案例中我们能清晰地看到,大模型能力的融入,解决了用户养成语音助手使用习惯中最大难题之一——不够自然的对话、无法随心所欲的自然交流。
简单来说,就是让智能语音助手从好玩、新奇变得好用,甚至成为一种“习惯动作”。大模型让智能语音助手真正能够读懂、听懂我们,其易用性的提升是极为显著的。
在一些终端厂商看来,等大模型的应用,更多集中在创意类文案写作、信息整理、问答聊天、文章摘要等,但语音助手的定位是“智能私人助理”,从设备控制、个性化的咨询服务提供到提升我们日常办公的效率,智能语音助手在消费场景中的应用要更加广泛。
与此同时,相比的、谷歌的Bard这些生成式AI聊天机器人,智能语音助手会成为终端厂商的“系统级”能力,从语音对话、图文识别、服务建议到设备互联管理。
有相关AI专家告诉智东西,系统级能力意味着系统级的入口跟操作系统结合地更加紧密,跟生态的互联也做到了系统生态底层,这种互联才是真正高效的,体验才能做到最好,这种互联远非与App之间一对一的SDK调用可以相比的。
此外,不论是华为、小米、荣耀还是OV,这些厂商都已经开展了广泛的IoT业务布局,而智能语音助手已经成为串联起他们这些智能设备的关键AI服务入口,终端厂商可以通过语音助手端大模型的融入,将大模型的能力快速扩展到自家的整个软硬件生态体系当中,这对于厂商们来说也十分重要。
三、把大模型塞进手机里,这事难不难?
把大模型用在智能语音助手里,想到这件事并不难,甚至从出现的第一天起,所有做语音助手的公司就都想到这件事了。
但关键是,到底怎么实现?成本与带来的回报是否成正比?GPT-4这样的大语言模型,动辄千亿级的参数量,想要用在一部整机功耗仅几瓦的手机中,技术层面的挑战要如何解决?
关于这些问题,前文提到的华为小艺的例子中我们或许可以找到一些答案。
总体来看,在智能语音助手上应用大模型,至少要做两件事,第一,把通用大模型优化出一个适合语音助手使用的版本,第二,在算力和功耗上把这件事跑通。
从华为的例子来看,华为是在盘古L0大模型的基础上,对平时消费者场景中所涉及的数据进行了精调优化,构建了一个L1层对话模型,用在了小艺中。
对这些消费者场景,厂商需要构造对应的语料数据,设计让系统能够理解和可执行的模型输出,同时还要给大模型输入可信的结构化、非结构化知识,从而让大模型能够学习到通识、逻辑关系。
不能帮你设置你的手机或者操控你家里的各类智能设备,但语音助手需要具备这样的能力,这也是智能语音助手非常重要的一个功能。
所以厂商还需要通过技术优化实现大模型和系统的有效解析、高效对接,并且针对复杂场景给大模型先“培训学习”,让大模型学会这些操控技能,最后再把大模型推理成本和推理时延方面的问题解决好。
做出适合语音助手使用的大模型版本还不够,为了解决功耗和算力问题,端云的结合也是比较要的。
如今应用程序都是依赖云端算力,但真正用到语音助手里,涉及用户个人信息的使用和处理,势必需要本地化运行,但完全本地化运行又无法解决功耗和算力不足的问题。
华为是做了不同的大模型版本,有终端侧的也有云侧的,根据任务的不同,两侧协同处理。
作为移动芯片厂商的高通此前也一直在重点推广他们的“混合AI”理念,其实意思就是移动侧生成式AI的应用必然涉及端侧和云侧的协同。从产业各方的行动来看,这也基本上成为了业内的共识。
当然,在智能语音助手用上大模型,绝对不是我们三言两语提到的这样简单,背后涉及诸多技术以及产业层面的挑战,从华为的例子中也能略知一二。
不过话说回来,虽然难,但华为恰恰证明了这件事的可行性,并且大模型应用在智能语音助手中,的确可以带来不少能力上的“质变”。
四、大模型之战来势汹汹,数据、算力、人才仍是核心争夺焦点
生成式AI席卷千行百业,大模型给手机产业带来的影响将是深远的。
对于消费者来说,手机变得更“聪明”,更“高效”,我们终于可以用随意的口语表达享受语音助手提供的服务,比如一些上的文本、图像生成能力,智能语音助手也都学会了,智能语音助手用上大模型,必然是有益且备受消费者们期待的。
对于厂商们来说,智能手机以及相关IoT设备融入基于大模型的生成式AI能力是未来发展的必然趋势,大模型给这些业务带来的变化将是显著且有价值的。
不论是自己做大模型还是合作,这场大模型之战,每家厂商都不得不重视起来。
当然,对于各家智能手机厂商来说,这股浪潮带来的挑战也是显而易见的,想要真正将这场仗打好,有诸多困难需要克服。
有AI产业相关人士告诉智东西,对于要自己做大模型的厂商来说,数据、算力、人才的积累缺一不可,例如大规模的高质量数据获取和清洗、算力如何克服系统级挑战、训练如何做到成本可控。而对于采用合作模式的厂商来说,如何保证更好的端云协同处理,如何平衡成本和效益以及商业合作模式的探索,都将是他们要面对的。
结语:AI大模型,手机厂商们的一场硬仗
站在今天的节点上,手机大模型之战已经揭开帷幕,先出手厂商的已经亮牌,没出手的厂商也都在酝酿之中,手机大模型之战暗潮汹涌。
从既有语音助手结合大模型的成果来看,AI大模型对于智能手机的体验加持是很明显的,AI大模型对于未来手机厂商各条业务线的发展也将会产生深远影响,AI大模型必然会成为后续科技产业主要发展的趋势,也会成为各家关注的重点技术赛道之一。
AI大模型,无疑是手机厂商们要面对的一场硬仗,但究竟谁能带来打破产业格局甚至颠覆既有玩法的突破性产品或技术,花落谁家仍未可知。
面向未来,大模型与智能语音助手的结合必将更加紧密,随着后续各路科技巨头的跟进,智能语音助手的“进化”浪潮将势不可挡。未来还会有哪些新的应用场景、新的应用形态和功能涌现出来,都充满想象空间。