目前市面上主要的AICG预训练大模型主要有的GPT系列、谷歌的PaLM、Meta的LLaMA、百度的文心系列、腾讯的混元系列、阿里巴巴的通义千问、华为的盘古大模型等等
根据公布的数据,GPT模型从2018年6月首次发布到2023年5月,已经迭代了四格大版本,参数量从GPT-1的1.17亿到GPT-3的1750亿到GPT-3的1750亿。而最新的GPT-4虽然没有公布训练参数量,不过根据的说法,GPT-4主要的升级是多模态能力方面,会使用到更多计算资源。
近期谷歌发布的PaLM2的升级也类似,在参数量与PaLM2基本同是5400亿的情况下大幅提升多模态能力,也就是可以同时处理文本、图像、音频等多种内容。
而百度的类模型文心一言,是基于百度文心大模型打造,2021年12月百度推出的文心ERNIE 3.0 Titan参数量规模高达2600亿。
当然由于大模型类型的不同比如NLP、CV,也有融合了NLP和CV的多模态,所以参数量也不直接代表大模型的实际能力。
参数量越高,意味着消耗的算力资源越多。以为例,由于与13亿参数的是一对姐妹模型,仅在采集数据方式上有差异。参数规模为13.2亿的GPT-3 XL与接近,而公开的数据中,GPT-3 XL训练所需算力是27./s-day(/s的效率运行27.5天),那么我们可以大致认为训练一次所需算力同样是需要/s的效率运行27.5天。
如果使用英伟达V100 GPU,按照半精度(FP16)算力计算,至少需要一块V100 GPU不间断满载运行220天才能完成一次训练;如使用SXM版本的A100,按照半精度算力计算,那么进行一次训练也需要一块A100运行44天左右。
目前SXM版本最高规格显存的V100和A100单卡市场售价大约分别为2.5万元和9万元左右。
当然由于技术形式的不同,实际训练中的效率不会这么高,而这样的训练成本仅是13亿参数量的模型。如今AI大模型动辄千亿,甚至万亿的参数量规模,比如有机构报告推算GPT-4模型参数量达到1万亿,那么在暴增的数据量下,为了缩短训练时间,对于AI服务器等算力硬件的需求量毫无疑问会随着模型训练数据量增加而提高。
另一方面,在这类聊天应用中,巨大的用户访问量也给算力带来巨大的性能和成本压力。根据数据,今年2月访问量已经达到11亿次,而根据的数据,用户每次与互动产生的云算力成本约0.01美元,如果往低了算,每次访问网站仅进行一次互动,那么单月仅算力成本也要1100万美元。
未来在包括类在内的AI大模型进入到更多行业应用之后,市场需求持续开拓,AI服务器市场规模将有很大的市场空间,相关下游应用对于算力硬件的需求将会迎来新一轮爆发。
IDC的数据显示,2021年,全球AI服务器市场规模为156亿美元,同比增长39.1%;预计到2025年全球AI服务器市场规模将会达到317.9亿美元,复合年均增长率为19%。根据集邦咨询数据,截至2022年,预估搭载GPGPU的AI服务器年出货量占整体服务器比重近1%,而2023年,在相关应用加持下,预估出货量年同比增长8%,2022~2026年CAGR将达10.8%。
AI大模型背后用到哪些芯片?
在AI大模型领域,主要包括训练()和推理()两个步骤,训练即前面提到的通过大量经过标记的数据来训练能够完成特定功能的模型,而推断即利用经过训练后的模型,根据新导入的数据来推断出结论。
用于人工智能的服务器目前主要用到CPU搭配GPU、FPGA、AI ASIC这几种加速芯片,根据不同的计算任务选择不同的芯片搭配。对于大模型训练而言,传统的CPU受限于单行运算,主要在逻辑控制、串行运算等方面有优势,不擅长复杂算法运算和处理并行重复的操作。所以CPU在深度学习中会被用于推理或预测等领域,而在服务器中,CPU可以负责整个系统的管理和控制,是服务器的基础硬件,而GPU、FPGA、ASIC等加速芯片则负责AI计算任务的加速,两者相互协作,共同提升整个系统的性能。按照IDC的数据CPU在基础型、高性能型、推理型、训练型服务器中成本占比分别为32%、23.3%、25%、9.8%。
GPU则是目前AI服务器最常见的芯片,它提供多核并行计算的基础结构,可以支撑大算力需求,并且拥有高浮点运算能力,在处理图形数据和复杂算法方面与CPU相比有明显优势,满足深度学习领域的大量数据运算需求。不过GPU管理控制能力弱,需要配合CPU使用,功耗也较高。
FPGA也就是现场可编程门阵列,特点是可以无限次编程、灵活性较高,延时低,实时性强,可以同时进行数据并行和任务并行计算,在处理特定应用时会有明显的效率优势。同时可重复编程为算法功能实现和优化提供较大的修改空间。但与此同时FPGA开发难度大,价格较高,所以应用场景会受到一定限制。
AI用ASIC顾名思义是全定制化的芯片,专为特定应用或实现某种特定功能而专门设计的AI芯片,在处理相应任务时的能耗、效率表现都最好。但ASIC前期研发成本高、时间周期长,并且由于定制化设计,应用场景极为局限。在深度学习算法稳定后,可以通过根据算法需求设计ASIC,提供最高效率的算力硬件,大规模应用下能够大幅降低整体系统成本。
总结一下这四种芯片在AI计算中起到的不同作用:CPU主要用于逻辑判断、任务调度和控制方面;模型训练则往往会使用GPU;FPGA多数在研发阶段、数据中心、AI推理方面;AI用ASIC主要面向使用特定AI算法的应用场景,需要较为成熟的应用支撑其量产。
根据IDC的数据,中国AI芯片市场上目前GPU占比最高为89%,其次是NPU占到9.6%,ASIC和FPGA仅分别占1%和0.4%。其中NPU主要是用在边缘侧。而对于AI服务器的使用领域,按照当前趋势,在市场增长的情况下,服务器用于推理的负载占比会缓慢增加。2021用于推理和训练的占比分别为40.9%和59.1%,IDC预测2025年推理和训练的占比调整为 60.8%和39.2%。
不过随着AI大模型的成熟、算法持续优化、芯片性能的提升等因素变化,未来模型消耗的算力需求、服务器数量需求可能会比预测的数据要低。
下一期内容,我们将会对AI大模型中使用到的CPU、GPU、FPGA、ASIC这些细分领域产业链中做进一步的分析梳理,记得关注我们~
声明:本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信,投稿爆料采访需求,请发邮箱。