华泰证券发布最新研报,认为 将带动算力需求,核心环节有望率先受益。
研报中具体观点认为:
大算力消耗带来训练成本上升。训练 需要使用大量算力资源。据微软官网,微软Azure 为 开发的超级计算机是一个单一系统,具有超过 28.5 万个 CPU 核心、1 万个 GPU 和 400 GB/s 的 GPU 服务器网络传输带宽。据英伟达,使用单个 Tesla 架构的 对 1746 亿参数的 GPT-3 模型进行一次训练,需要用 288 年时间。此外,算力资源的大量消耗,必然伴随着算力成本的上升,据 ,使用训练一次 1746 亿参数的 GPT-3模型所需花费的算力成本超过 460 万美元。虽然 GPT-3.5 在模型参数量上有了明显下降,但考虑到 GPT-3、GPT-3.5 均为 独家拥有,其他厂商复刻难度较高,巨量参数或仍将是模型开发过程的必经之路,我们预计未来大模型开发的算力成本仍将较高。
模型算力需求增速超越芯片性能增速,算力霸权时代或将到来。据 测算,自 2012年以来,全球头部 AI 模型训练算力需求 3-4 个月翻一番,每年头部训练模型所需算力增长幅度高达 10 倍。而摩尔定律认为,芯片计算性能大约每 18-24 个月翻一番。因此,AI 训练模型算力需求增长与芯片计算性能增长之间的不匹配,或将带来对算力基础设施供给需求的快速增长。我们认为,考虑到算力对于 AI 模型训练效果的关键性作用,拥有更丰富算力资源的模型开发者,或将能够训练出更优秀的 AI 模型,算力霸权时代或将开启。
具体来看,AI 大模型对于算力资源的需求主要体现在以下三类场景:
1、模型预训练带来的算力需求
模型预训练过程是消耗算力的最主要场景。采用预训练语言模型,核心思想是在利用标注数据之前,先利用无标注的数据,即纯文本数据训练模型,从而使模型能够学到一些潜在的跟标注无关的知识,最终在具体的任务上,预训练模型就可以利用大量的无标注数据知识。在 的模型架构下,语言预训练过程可以根据上下文一次处理所有输入,实现大规模并行计算。通过堆叠多个解码模块,模型的层数规模也会随着提升,可承载的参数量同步增长。与之相对应的,模型训练所需要消耗的算力也就越大。
华泰证券预计,训练一次 模型需要的算力约 27./s-day。据 团队发表于 2020 年的论文《 are Few-Shot 》,训练一次 13 亿参数的GPT-3 XL 模型需要的全部算力约为 27./s-day,训练一次 1746 亿参数的 GPT-3 模型需要的算力约为 3640 PFlop/s-day。考虑到 训练所用的模型是基于 13 亿参数的 GPT-3.5 模型微调而来,参数量与 GPT-3 XL 模型接近,因此我们预计训练所需算力约27./s-day,即以 1 万亿次每秒的速度进行计算,需要耗时 27.5 天。
此外,预训练过程还存在几个可能的算力需求点:
1)模型开发过程很难一次取得成功,整个开发阶段可能需要进行多次预训练过程;
2)随着国内外厂商相继入局研发类似模型,参与者数量增加同样带来训练算力需求;
3)从基础大模型向特定场景迁移的过程,如基于 构建医疗 AI 大模型,需要使用特定领域数据进行模型二次训练。
同时,日常运营带来的算力需求旺盛。
预计 单月运营需要算力约 4874./s-day,对应成本约 616 万美元。在完成模型预训练之后, 对于底层算力的需求并未结束,日常运营过程中,用户交互带来的数据处理需求同样也是一笔不小的算力开支。据 数据,2023 年 1 月 官网总访问量为 6.16 亿次。据 杂志,每次用户与 互动,产生的算力云服务成本约 0.01 美元。基于此,我们测算得 2023 年 1 月 为 支付的运营算力成本约 616 万美元。据上文,我们已知训练一次 1746 亿参数的 GPT-3 模型需要 3640 PFlop/s-day 的算力及 460 万美元的成本,假设单位算力成本固定,测算得 单月运营所需算力约 4874./s-day。
从模型迭代的角度来看, 模型并不是静态的,而是需要不断进行 模型调优,以确保模型处于最佳应用状态。这一过程中,一方面是需要开发者对模型参数进行调整,确保输出内容不是有害和失真的;另一方面,需要基于用户反馈和 PPO 策略,对模型进行大规模或小规模的迭代训练。因此,模型调优同样会为 带来算力成本,具体算力需求和成本金额取决于模型的迭代速度。
从供给端来看,核心环节有望率先受益。
算力芯片:AI 算力基石,需求有望大规模扩张
GPU 架构更适合进行大规模 AI 并行计算,需求有望大规模扩张。从 模型计算方式来看,主要特征是采用了并行计算。对比上一代深度学习模型 RNN 来看,架构下,AI 模型可以为输入序列中的任何字符提供上下文,因此可以一次处理所有输入,而不是一次只处理一个词,从而使得更大规模的参数计算成为可能。而从 GPU 的计算方式来看,由于 GPU 采用了数量众多的计算单元和超长的流水线,因此其架构设计较 CPU 而言,更适合进行大吞吐量的 AI 并行计算。基于此,随着大模型训练需求逐步增长,下游厂商对于 GPU 先进算力及芯片数量的需求均有望提升。
服务器:AI 服务器有望持续放量
主要进行矩阵向量计算,AI 服务器处理效率更高。从 模型结构来看,基于 架构, 模型采用注意力机制进行文本单词权重赋值,并向前馈神经网络输出数值结果,这一过程需要进行大量向量及张量运算。而 AI 服务器中往往集成多个 AI GPU,AI GPU 通常支持多重矩阵运算,例如卷积、池化和激活函数,以加速深度学习算法的运算。因此在人工智能场景下,AI 服务器往往较 GPU 服务器计算效率更高,具备一定应用优势。
以浪潮信息目前算力最强的服务器产品之一—浪潮 为例。 是浪潮为超大规模数据中心研发的 AI 服务器,支持 2 颗 Intel 最新的 Ice Lake CPU 和 8 颗 最新的 全互联 ,单机可提供 的 AI 计算性能。
再以联想为例,其服务器SR670 V2 3U,也释放了新的算力。R670 V2 是一款GPU丰富的3U机架式服务器,支持8个双宽GPU,包括 A 100和A40 Core GPU,以及配备 和 混合液体的 HGX A100-GPU型号到空气冷却。SR670 V2 为各行各业的AI、高性能计算(HPC)和图形工作负载提供最佳性能。无论是零售、制造、金融服务和医疗保健行业,都可以利用其GPU的处理能力来提取更重要的见解并利用机器学习(ML)和深度学习(DL)推动创新。一个由13个SR670 V2 组成的机架可以产生多大两个的计算能力,为AI和HPC工作负载提供优化的加速性能。
此外,联想服务器产品市场份额位居全球第三;在高性能计算领域,联想多年在全球和中国市场排名第一;在基础型存储市场份额全球第一;在中国,联想在中小企业服务器市场份额排名第一、基础型存储市场份额排名第三。
数据中心:核心城市集中算力缺口或将加剧
IDC 算力服务是承接 AI 计算需求的直接形式。 的模型计算主要基于微软的 Azure云服务进行,本质上是借助微软自有的 IDC 资源,在云端完成计算过程后,再将结果返回给 。可见,IDC 是承接人工智能计算任务的重要算力基础设施之一,但并不是所有企业都需要自行搭建算力设施。从国内数据中心的业务形态来看,按照机房产权归属及建设方式的角度,可分为自建机房、租赁机房、承接大客户定制化需求以及轻资产衍生模式四种。
若使用商汤智算中心全部算力,可在 11 分钟完成一次 模型训练。以亚洲最大的人工智能计算中心之一—商汤智算中心为例。据商汤科技官网,商汤智算中心于 2022年 1 月启动运营,峰值算力高达 3740 。