本地部署chatgpt 硬件终端承接大模型：不能承受之轻？

默认分类2年前 (2023)发布 admin

2,045 0 0

在AI计算的实现上，软件和硬件同样重要，因为必须在端侧做到运算更快、效率更高，并推动AI应用在广泛终端上的部署和普及。记者了解到，高通早在2022年6月就推出了AI软件栈（ AI Stack），支持包括、和ONNX在内的所有主流开发框架，所有（运行时，即某门编程语言的运行环境）和操作系统。借助高通AI软件栈，开发者在智能手机领域开发的软件可以快速扩展至汽车、XR、可穿戴设备等其他产品线进行使用。

高通技术公司产品管理高级副总裁兼AI负责人Ziad 表示，未来公司需要加大终端侧技术上的研发，尤其是进一步提升量化的算法。例如服务器上训练的模型一般采用32位浮点运算（FP32），而其在手机端现在能够支持INT4计算，这能大大提高端侧的处理能力。

大模型在终端的轻量化部署需要芯片在算力与功耗之间找到平衡点。赛迪顾问研究员邓楚翔对《中国电子报》记者表示，大模型“由云向端”趋势，对手机、可穿戴设备、智能家电等电子电器产品SoC中GPU算力与功耗平衡提出了更高要求。特别是在手机等终端产品中，“便利性”是第一要素，因此大模型在参数上会进行适度压缩，算力芯片需要同时考虑算力与功耗比。同时，当大模型应用于终端领域时，低延时响应能力也是对专用GPU性能的重要评判指标。

事实上，在终端应用场景，芯片、硬件等主要进行的是推理过程。根据应用场景的不同，不同大模型对硬件需求也是不一样的。

“比如，需要随时更新学习数据的通用大模型，终端大模型应用需要端云协作，对硬件的互连性能和网络情况有较高要求；有些比较‘精简’的、不需要基于在线数据的大模型应用，如内容生成大模型应用场景的一种—图片修改，就可以在终端设备中运行，但这种场景对终端设备本身的算力就有较高要求。”本土GPU独角兽厂商技术专家对《中国电子报》记者表示。

芯片面临性能与算力等多重挑战

本地部署chatgpt 硬件终端承接大模型：不能承受之轻？

全球众多科技企业都在积极研究AI大模型，并致力于实现大模型在终端的轻量化部署。但由于算力的参数规模太大，从算力硬件来看，由于AI芯片针对AI算法做了特殊加速设计，大多数AI训练和推理工作负载对AI芯片的性能和算力要求很高，这也让芯片面临存储、计算能力、功耗等方面的多重挑战。

“端侧和边缘设备的算力、功耗、成本往往有限，不像算力中心可以无限增加设备。因此，如何在一个资源受限的情况下去完成推理，就需要根据特定领域的特定需求去做特定优化。”澎峰科技联合创始人兼首席运营官王军辉对《中国电子报》记者表示，一方面，这需要AI软件栈对模型进行量化、编译和软件加速优化。另外一方面，针对大模型的异构计算芯片将成为未来的主流发展趋势。而其挑战在于，由于目前算法依然处于快速迭代阶段，因此投入和产出具有很高的不确定性。

从芯片架构的角度来看，异构计算将是实现终端和边缘侧大模型部署的必然选择。Arm物联网事业部业务拓展副总裁马健对《中国电子报》记者表示，边缘侧设备集成的芯片从同构CPU架构发展到异构及加速器架构，能够更好地支持大模型稀疏化后形成的小模型，使它们能够在边缘侧和端侧实现部署。

在本土GPU独角兽厂商技术专家看来，大模型部署在终端的最大技术挑战主要在于设备。这是因为终端设备往往对芯片功耗和芯片面积非常敏感，因此在算力提升上难度很大。

“这其实也是移动芯片所面临的技术挑战。摩尔定律基本走到尽头，在功耗和面积限制下，提升算力的难度巨大、成本巨大。”该技术专家认为，提升算力的解决方案主要有两方面。一方面是利用好5G通信技术带来的优势，更多采用云端计算的方式来部署大模型应用；另一方面则是加强在芯片制造、封装等方面的技术研发力度，争取突破摩尔定律，寻找新的解决方案。

大模型在终端部署前还要通过机器学习等方式进行训练。记者了解到，在算力挑战下，现阶段的大模型训练主要在云端或边缘进行。本土GPU独角兽厂商技术专家对记者表示：“大模型在训练过程需要庞大的算力，推理工作也很难在终端平台上进行计算，因此需要云端算力。对于终端设备而言，要想利用好当前大模型的这波热潮，关键还是利用好通信技术的发展，结合云端算力进行大模型的终端部署。”

本地部署chatgpt 硬件终端承接大模型：不能承受之轻？