在AI计算的实现上,软件和硬件同样重要,因为必须在端侧做到运算更快、效率更高,并推动AI应用在广泛终端上的部署和普及。记者了解到,高通早在2022年6月就推出了AI软件栈( AI Stack),支持包括、和ONNX在内的所有主流开发框架,所有(运行时,即某门编程语言的运行环境)和操作系统。借助高通AI软件栈,开发者在智能手机领域开发的软件可以快速扩展至汽车、XR、可穿戴设备等其他产品线进行使用。
高通技术公司产品管理高级副总裁兼AI负责人Ziad 表示,未来公司需要加大终端侧技术上的研发,尤其是进一步提升量化的算法。例如服务器上训练的模型一般采用32位浮点运算(FP32),而其在手机端现在能够支持INT4计算,这能大大提高端侧的处理能力。
大模型在终端的轻量化部署需要芯片在算力与功耗之间找到平衡点。赛迪顾问研究员邓楚翔对《中国电子报》记者表示,大模型“由云向端”趋势,对手机、可穿戴设备、智能家电等电子电器产品SoC中GPU算力与功耗平衡提出了更高要求。特别是在手机等终端产品中,“便利性”是第一要素,因此大模型在参数上会进行适度压缩,算力芯片需要同时考虑算力与功耗比。同时,当大模型应用于终端领域时,低延时响应能力也是对专用GPU性能的重要评判指标。
事实上,在终端应用场景,芯片、硬件等主要进行的是推理过程。根据应用场景的不同,不同大模型对硬件需求也是不一样的。
“比如,需要随时更新学习数据的通用大模型,终端大模型应用需要端云协作,对硬件的互连性能和网络情况有较高要求;有些比较‘精简’的、不需要基于在线数据的大模型应用,如内容生成大模型应用场景的一种—图片修改,就可以在终端设备中运行,但这种场景对终端设备本身的算力就有较高要求。”本土GPU独角兽厂商技术专家对《中国电子报》记者表示。
芯片面临性能与算力等多重挑战
全球众多科技企业都在积极研究AI大模型,并致力于实现大模型在终端的轻量化部署。但由于算力的参数规模太大,从算力硬件来看,由于AI芯片针对AI算法做了特殊加速设计,大多数AI训练和推理工作负载对AI芯片的性能和算力要求很高,这也让芯片面临存储、计算能力、功耗等方面的多重挑战。
“端侧和边缘设备的算力、功耗、成本往往有限,不像算力中心可以无限增加设备。因此,如何在一个资源受限的情况下去完成推理,就需要根据特定领域的特定需求去做特定优化。”澎峰科技联合创始人兼首席运营官王军辉对《中国电子报》记者表示,一方面,这需要AI软件栈对模型进行量化、编译和软件加速优化。另外一方面,针对大模型的异构计算芯片将成为未来的主流发展趋势。而其挑战在于,由于目前算法依然处于快速迭代阶段,因此投入和产出具有很高的不确定性。
从芯片架构的角度来看,异构计算将是实现终端和边缘侧大模型部署的必然选择。Arm物联网事业部业务拓展副总裁马健对《中国电子报》记者表示,边缘侧设备集成的芯片从同构CPU架构发展到异构及加速器架构,能够更好地支持大模型稀疏化后形成的小模型,使它们能够在边缘侧和端侧实现部署。
在本土GPU独角兽厂商技术专家看来,大模型部署在终端的最大技术挑战主要在于设备。这是因为终端设备往往对芯片功耗和芯片面积非常敏感,因此在算力提升上难度很大。
“这其实也是移动芯片所面临的技术挑战。摩尔定律基本走到尽头,在功耗和面积限制下,提升算力的难度巨大、成本巨大。”该技术专家认为,提升算力的解决方案主要有两方面。一方面是利用好5G通信技术带来的优势,更多采用云端计算的方式来部署大模型应用;另一方面则是加强在芯片制造、封装等方面的技术研发力度,争取突破摩尔定律,寻找新的解决方案。
大模型在终端部署前还要通过机器学习等方式进行训练。记者了解到,在算力挑战下,现阶段的大模型训练主要在云端或边缘进行。本土GPU独角兽厂商技术专家对记者表示:“大模型在训练过程需要庞大的算力,推理工作也很难在终端平台上进行计算,因此需要云端算力。对于终端设备而言,要想利用好当前大模型的这波热潮,关键还是利用好通信技术的发展,结合云端算力进行大模型的终端部署。”
我国算力总规模位居全球第二,近5年年均增速近30%
刘韵洁院士:我国在行业大模型方面有望领跑
作者丨张依依
编辑丨张心怡
美编丨马利亚
监制丨连晓东