有能力开发chatgpt算力的国内公司 Chatgpt需要多少算力？联想、浪潮等引发范式革命

默认分类2年前 (2023)发布 admin

5,034 0 0

华泰证券发布最新研报，认为将带动算力需求，核心环节有望率先受益。

研报中具体观点认为：

从需求端来看，大模型训练带来高算力需求。

大算力消耗带来训练成本上升。训练需要使用大量算力资源。据微软官网，微软Azure 为开发的超级计算机是一个单一系统，具有超过 28.5 万个 CPU 核心、1 万个 GPU 和 400 GB/s 的 GPU 服务器网络传输带宽。据英伟达，使用单个 Tesla 架构的对 1746 亿参数的 GPT-3 模型进行一次训练，需要用 288 年时间。此外，算力资源的大量消耗，必然伴随着算力成本的上升，据，使用训练一次 1746 亿参数的 GPT-3模型所需花费的算力成本超过 460 万美元。虽然 GPT-3.5 在模型参数量上有了明显下降，但考虑到 GPT-3、GPT-3.5 均为独家拥有，其他厂商复刻难度较高，巨量参数或仍将是模型开发过程的必经之路，我们预计未来大模型开发的算力成本仍将较高。

模型算力需求增速超越芯片性能增速，算力霸权时代或将到来。据测算，自 2012年以来，全球头部 AI 模型训练算力需求 3-4 个月翻一番，每年头部训练模型所需算力增长幅度高达 10 倍。而摩尔定律认为，芯片计算性能大约每 18-24 个月翻一番。因此，AI 训练模型算力需求增长与芯片计算性能增长之间的不匹配，或将带来对算力基础设施供给需求的快速增长。我们认为，考虑到算力对于 AI 模型训练效果的关键性作用，拥有更丰富算力资源的模型开发者，或将能够训练出更优秀的 AI 模型，算力霸权时代或将开启。

具体来看，AI 大模型对于算力资源的需求主要体现在以下三类场景：

1、模型预训练带来的算力需求

模型预训练过程是消耗算力的最主要场景。采用预训练语言模型，核心思想是在利用标注数据之前，先利用无标注的数据，即纯文本数据训练模型，从而使模型能够学到一些潜在的跟标注无关的知识，最终在具体的任务上，预训练模型就可以利用大量的无标注数据知识。在的模型架构下，语言预训练过程可以根据上下文一次处理所有输入，实现大规模并行计算。通过堆叠多个解码模块，模型的层数规模也会随着提升，可承载的参数量同步增长。与之相对应的，模型训练所需要消耗的算力也就越大。

有能力开发chatgpt算力的国内公司 Chatgpt需要多少算力？联想、浪潮等引发范式革命

华泰证券预计，训练一次模型需要的算力约 27./s-day。据团队发表于 2020 年的论文《 are Few-Shot 》，训练一次 13 亿参数的GPT-3 XL 模型需要的全部算力约为 27./s-day，训练一次 1746 亿参数的 GPT-3 模型需要的算力约为 3640 PFlop/s-day。考虑到训练所用的模型是基于 13 亿参数的 GPT-3.5 模型微调而来，参数量与 GPT-3 XL 模型接近，因此我们预计训练所需算力约27./s-day，即以 1 万亿次每秒的速度进行计算，需要耗时 27.5 天。

此外，预训练过程还存在几个可能的算力需求点：

1）模型开发过程很难一次取得成功，整个开发阶段可能需要进行多次预训练过程；

2）随着国内外厂商相继入局研发类似模型，参与者数量增加同样带来训练算力需求；

3）从基础大模型向特定场景迁移的过程，如基于构建医疗 AI 大模型，需要使用特定领域数据进行模型二次训练。

同时，日常运营带来的算力需求旺盛。

预计单月运营需要算力约 4874./s-day，对应成本约 616 万美元。在完成模型预训练之后，对于底层算力的需求并未结束，日常运营过程中，用户交互带来的数据处理需求同样也是一笔不小的算力开支。据数据，2023 年 1 月官网总访问量为 6.16 亿次。据杂志，每次用户与互动，产生的算力云服务成本约 0.01 美元。基于此，我们测算得 2023 年 1 月为支付的运营算力成本约 616 万美元。据上文，我们已知训练一次 1746 亿参数的 GPT-3 模型需要 3640 PFlop/s-day 的算力及 460 万美元的成本，假设单位算力成本固定，测算得单月运营所需算力约 4874./s-day。

从模型迭代的角度来看，模型并不是静态的，而是需要不断进行模型调优，以确保模型处于最佳应用状态。这一过程中，一方面是需要开发者对模型参数进行调整，确保输出内容不是有害和失真的；另一方面，需要基于用户反馈和 PPO 策略，对模型进行大规模或小规模的迭代训练。因此，模型调优同样会为带来算力成本，具体算力需求和成本金额取决于模型的迭代速度。

从供给端来看，核心环节有望率先受益。

有能力开发chatgpt算力的国内公司 Chatgpt需要多少算力？联想、浪潮等引发范式革命

算力芯片：AI 算力基石，需求有望大规模扩张

GPU 架构更适合进行大规模 AI 并行计算，需求有望大规模扩张。从模型计算方式来看，主要特征是采用了并行计算。对比上一代深度学习模型 RNN 来看，架构下，AI 模型可以为输入序列中的任何字符提供上下文，因此可以一次处理所有输入，而不是一次只处理一个词，从而使得更大规模的参数计算成为可能。而从 GPU 的计算方式来看，由于 GPU 采用了数量众多的计算单元和超长的流水线，因此其架构设计较 CPU 而言，更适合进行大吞吐量的 AI 并行计算。基于此，随着大模型训练需求逐步增长，下游厂商对于 GPU 先进算力及芯片数量的需求均有望提升。

服务器：AI 服务器有望持续放量

主要进行矩阵向量计算，AI 服务器处理效率更高。从模型结构来看，基于架构，模型采用注意力机制进行文本单词权重赋值，并向前馈神经网络输出数值结果，这一过程需要进行大量向量及张量运算。而 AI 服务器中往往集成多个 AI GPU，AI GPU 通常支持多重矩阵运算，例如卷积、池化和激活函数，以加速深度学习算法的运算。因此在人工智能场景下，AI 服务器往往较 GPU 服务器计算效率更高，具备一定应用优势。

以浪潮信息目前算力最强的服务器产品之一—浪潮为例。是浪潮为超大规模数据中心研发的 AI 服务器，支持 2 颗 Intel 最新的 Ice Lake CPU 和 8 颗最新的全互联，单机可提供的 AI 计算性能。

再以联想为例，其服务器SR670 V2 3U，也释放了新的算力。R670 V2 是一款GPU丰富的3U机架式服务器，支持8个双宽GPU，包括 A 100和A40 Core GPU，以及配备和混合液体的 HGX A100-GPU型号到空气冷却。SR670 V2 为各行各业的AI、高性能计算(HPC）和图形工作负载提供最佳性能。无论是零售、制造、金融服务和医疗保健行业，都可以利用其GPU的处理能力来提取更重要的见解并利用机器学习（ML）和深度学习（DL）推动创新。一个由13个SR670 V2 组成的机架可以产生多大两个的计算能力，为AI和HPC工作负载提供优化的加速性能。

此外，联想服务器产品市场份额位居全球第三；在高性能计算领域，联想多年在全球和中国市场排名第一；在基础型存储市场份额全球第一；在中国，联想在中小企业服务器市场份额排名第一、基础型存储市场份额排名第三。

数据中心：核心城市集中算力缺口或将加剧

IDC 算力服务是承接 AI 计算需求的直接形式。的模型计算主要基于微软的 Azure云服务进行，本质上是借助微软自有的 IDC 资源，在云端完成计算过程后，再将结果返回给。可见，IDC 是承接人工智能计算任务的重要算力基础设施之一，但并不是所有企业都需要自行搭建算力设施。从国内数据中心的业务形态来看，按照机房产权归属及建设方式的角度，可分为自建机房、租赁机房、承接大客户定制化需求以及轻资产衍生模式四种。

若使用商汤智算中心全部算力，可在 11 分钟完成一次模型训练。以亚洲最大的人工智能计算中心之一—商汤智算中心为例。据商汤科技官网，商汤智算中心于 2022年 1 月启动运营，峰值算力高达 3740 。