欢迎扫码加入“椿树和他的朋友们”交流社群。
星球专注于商业、财经、产业、创业、投资、理财、融资、上市、资本运作等领域内的互助成长交流。
主要形式有@椿树一对一专属问答、每日财经要闻解读评析、椿树领读计划(每年领读50本畅销书)、球友专属椿树观点思想分享、跨领域课程专栏、球友专属各领域嘉宾大咖分享、球友专属线下见面会、球友共创合作计划等。
———————————————-
核心观点
大模型计算量高速扩张,算力需求陡增。1)以为代表的大模型参数量、数据量高度扩张,GPT-3模型参数量高达1750亿,大模型训练需要强大算力支撑。2)当前每日搜索量已达到35亿,我们认为日活提升空间广阔,算力需求有望持续释放。3)未来多模态趋势下,更广的数据形态、更多的应用场景、更深的用户体验,亦将大幅提升支撑人工智能的算力需求,算力或迎来高速扩张时代。
人工智能芯片铸就算力底座,龙头破局加速追赶。华为昇腾、海光信息、寒武纪、百度等龙头在AI芯片市场加速布局,产品算力不断提升,部分性能靠近国际先进水平:
软硬生态构筑壁垒,关注海光、昇腾两大算力领军生态。考虑到除了GPU本身的技术壁垒外,软件生态也成为强化GPU厂商竞争力的重要屏障,建议关注产品性能突出、生态完善、下游应用丰富的海光和鲲鹏及其合作伙伴:
风险提示:AI技术迭代不及预期风险、经济下行超预期风险、行业竞争加剧风险。
报告正文
01
大模型计算量高速扩张,算力需求陡增
以大模型为基础,在翻译、问答、内容生成等领域表现不俗。1)是生成式AI的一种形式,将其作为《2022年度重要战略技术趋势》的第一位。2)根据腾讯研究院研究,当前的人工智能大多是针对特定的场景应用进行训练,生成的模型难以迁移到其他应用,属于“小模型”的范畴。整个过程不仅需要大量的手工调参,还需要给机器喂养海量的标注数据,这拉低了人工智能的研发效率,且成本较高。而背后的支撑是人工智能大模型。大模型通常是在无标注的大数据集上,采用自监督学习的方法进行训练。之后,在其他场景的应用中,开发者只需要对模型进行微调,或采用少量数据进行二次训练,就可以满足新应用场景的需要。这意味着,对大模型的改进可以让所有的下游小模型受益,大幅提升人工智能的适用场景和研发效率。3)因此大模型成为业界重点投入的方向,、谷歌、脸书、微软,国内的百度、阿里、腾讯、华为和智源研究院等纷纷推出超大模型。特别是 GPT3大模型在翻译、问答、内容生成等领域的不俗表现,让业界看到了达成通用人工智能的希望。当前的版本为GPT3.5,是在GPT3之上的调优,能力进一步增强。
以大模型为基础,参数量、数据量高度扩张,算力需求陡增。在大模型的框架下,每一代GPT模型的参数量均高速扩张;同时,预训练的数据量需求亦快速提升。我们认为,的快速渗透、落地应用,也将大幅提振算力需求。
月活过亿,算力成为衡量投入的关键指标。根据的数据,2023年1月,累计用户超1亿,创下了互联网最快破亿应用的记录,超过了之前个月破亿的速度。
1)访问阶段:初始投入近十亿美元,单日电费数万美元。
另外,考虑每日搜索量已达到35亿,我们认为日活提升空间广阔,算力需求有望持续释放。
2)训练阶段:公有云下,单次训练约为百万至千万美元
目前文字交互仅为以及AIGC应用场景的冰山一角,语音、图片、视频等多形式的输入输出,或将为内容创作领域带来革命性变化。而更广的数据形态、更多的应用场景、更深的用户体验,亦将大幅提升支撑人工智能的算力需求,算力或迎来高速扩张时代,服务器、芯片、IDC、光通信等厂商有望核心受益。
02
人工智能芯片铸就算力底座,龙头破局加速追赶
AI芯片优化机器学习和深度学习运算,较传统CPU存在技术变化。在CPU的基础上,AI芯片优化了在机器学习和深度学习中常用的运算,在并行计算、低精度计算、内存优化三个方面存在技术变化,与CPU发挥不同的功能,共同满足新时代计算需求。
根据技术架构分类,AI芯片包括图形处理单元(GPU),现场可编程门阵列(FPGA),以及特定应用集成电路(ASICs)。1)GPU最初是为处理应用并行计算的图像而设计的。2012年起,GPU开始越来越多地被用于训练AI系统;到2017年,GPU已成为主导的AI芯片。根据海光信息招股说明书,目前GPGPU依旧是主流架构选择,占比达到90%。2)然而,GPU仍然采用了通用计算的设计,FPGA和ASIC与之相对,在训练和推理方面变得更加突出。ASIC包括为特定算法定制的硬蚀刻的线路,由于ASIC对特定的算法做了优化,其通常比FPGA有着更高的效能和速度;FPGA的逻辑块使得其可以在制造后由程序员重新配置、适应特定的算法,比ASIC有着更高的通用性可以被二次编程应用与改造。
根据承担的任务分类,AI芯片包括训练芯片和推理芯片。训练芯片通过大量标记或未标记的大数据来学习训练、搭建神经网络模型需要更强的算力、也往往带来更高的功耗;后者则以训练好的模型为蓝本推理出结论。根据SCET的测算,训练芯片和推理芯片在效能和速度上比同等耗能的CPU有着10~1000倍的提升。
华为昇腾、海光信息、寒武纪、百度等龙头在AI芯片市场加速布局,产品算力不断提升,部分性能靠近国际先进水平:
03
人工智能芯片铸就算力底座,龙头破局加速追赶
3.1软件强化GPU竞争壁垒,完善生态成为发展关键
英伟达CUDA生态强化芯片高壁垒。CUDA是2006年由推出的通用并行计算架构,包含了应用于 GPU的指令集(ISA)以及GPU内部并行计算引擎。CUDA提供了GPU编程的简易接口,程序员可以基于CUDA编译基于GPU的应用程序,利用GPU的并行计算能力更高效的解决复杂计算难题。根据宽泛科技公众号,Cuda推出之前,给GPU编程需要用机器码深入到显卡内核才能完成;推出了Cuda以后,把复杂的显卡编程包装成了简单的接口,造福了广大开发人员,因此主流的深度学习框架多基于CUDA进行GPU并行加速。据Jon 数据,截止至2022年四季度,以82%的市场份额保持着全球领先的独立GPU供应商的地位,Intel和AMD占比均达到9%。
软件生态成为GPU厂商的重要屏障。的GPU目前在全球依旧是云端人工智能加速的主流解决方案,究其根本,其他AI芯片公司在生态上难以与生态做竞争:一方面取决于CUDA完整编程和AI工具链,这些完整的工具链需要长时间积累;另一方面取决于其广泛的应用程序和合作伙伴。
1)AI工具链生态完善有利于芯片推广。任何新的计算平台推广的初级阶段,都需要开发人员将原有应用程序重新移植到新平台,因此开发人员需要先进的工具链和开发环境;而应用程序扩展后,在数据中心级别也会需要更多工具来进行支持。以CUDA为例,依靠CUDA平台,经过长期积累形成完备的工具链,同时与第三方进行合作,为开发者提供打造了完备的生态组件,而生态组件和硬件深度绑定,也更有利于芯片的拓展。
2)应用程序和合作伙伴影响着芯片的落地。构建在芯片之上的软件生态深刻影响着芯片的可用性,芯片上层应用程序与合作伙伴,直接决定了芯片是否真正落地和值得投资。便不断向全新的计算领域发起攻势,计算领域从云计算、医疗,一路扩展到自动驾驶、机器人、语言类大模型,甚至包括NASA火星登陆计划。
ROCm对标CUDA,在源码级别上对CUDA程序的支持。2015年AMD公司为了对标CUDA生态而开发的一套用于HPC和超大规模GPU计算提供的开源软件开发平台ROCm,目标是建立可替代CUDA的生态,并在源码级别上对CUDA程序的支持。AMD的生态虽然基于开源生态开发,但AMD也制作了HIP的编程模式,几乎全盘拷贝CUDA API,2016年AMD曾展示了从CUDA向HIP移植深度学习框架CAFFE,99.6%都是自动移植完成。
借鉴AMD发展思路,短期内国产GPU若兼容CUDA利于推广,发展自有的核心技术为长期策略。1)短期来看,国产GPU兼容CUDA等国际生态可以借助英伟达打造好的软件生态,减轻开发和迁移难度,也降低了推广压力。2)长期来看,由于CUDA架构会做出部分微调,国产GPU如果完全基于CUDA生态进行开发,硬件更新将绑定英伟达的开发进程,因此,完善自身工具链与下游应用,构建公司生态壁垒,发展自有的核心技术应为长期策略。
3.2海光生态:兼容国际主流计算生态,下游应用丰富
海光DCU产品兼容国际主流生态,有利于快速迁移。跨平台迁移过程中算子缺失和精度下降,会导致迁移成功率低。海光DCU协处理器全面兼容ROCm GPU计算生态,由于ROCm和CUDA在生态、编程环境等方面具有高度的相似性,CUDA用户可以以较低代价快速迁移至ROCm平台,ROCm也被称为“类CUDA”。因此,海光DCU协处理器能够较好地适配、适应商业计算软件和人工智能软件,软硬件生态丰富,可广泛应用于大数据处理、人工智能、商业计算等计算密集类应用领域,主要部署在服务器集群或数据中心,为应用程序提供高性能、高能效比的算力,支撑高复杂度和高吞吐量的数据处理任务。
完善AI工具链生态,最大限度利用已有的成熟AI算法和框架。1)提供统一底层硬件驱动平台,支持常见计算框架、库和编程模型;2)提供层次化软件栈,适配不同API接口和编译器,可最大限度利用已有的成熟AI算法和框架。
与CPU形成协同效应,CPU+GPGPU异构运算架构提高灵活性。1)运算协处理器存在多条技术路线,包括GPGPU、ASIC、FPGA等。其中GPGPU的代表企业包括和AMD;利用ASIC技术,许多大公司都研发了协处理器产品,包括Intel的Phi和NNP、的TPU、华为昇腾、寒武纪思元等;基于Intel、的FPGA,出现过很多专用协处理器产品。2)综合考虑性能、能效比和编程灵活性等方面的因素,GPGPU在协处理器应用领域具有非常明显的优势,占据人工智能90%以上的市场份额,在智能工厂、无人驾驶、智慧城市等领域具有广泛的市场空间。3)海光采用GPGPU路线,CPU+GPGPU的异构运算架构可以让系统具有更大灵活性,满足复杂场景的不同需求,能够较大幅度地提升单独使用CPU或GPGPU的任务执行效率;CPU和GPGPU之间还可以通过内存共享等方式进行数据交互,发挥异构计算的优势。
CPU与GPGPU获得产业链各环主流厂商支持,合作厂商不断增多。目前公司已具备完善的产业链生态,在操作系统、云计算、数据库、大数据、人工智能、商用计算软件等各环节支持主流厂商产品与服务。
加速以海光为核心的自主化生态,成立“光合组织”,面向产业链生态建设:
根植国内市场,海量需求将持续积淀Know-how,未来将拓展更多下游领域。目前,海光DCU主要面向大数据处理、商业计算等计算密集型应用领域以及人工智能、泛人工智能应用领域。相比国际芯片领先企业,公司根植于中国本土市场,更了解中国客户的需求,能够提供更为安全可控的产品和更为全面、细致的解决方案和售后服务,具有本土化竞争优势。随着公司产品在上述领域中示范效应的逐步显现,以及公司市场推广力度的不断加强,公司产品将会拓展至更多领域,占据更大的市场份额。
3.2昇腾生态:搭建全栈AI计算,生态伙伴深入
昇腾计算产业生态是基于昇腾系列处理器和基础软件构建的全栈AI计算基础设施、行业应用及服务,具体可以分为昇腾计算软硬件体系、合作伙伴、行业应用三层。
1)硬件体系:Atlas系列硬件产品,比如嵌入式模组、板卡、小站、服务器、集群等。Atlas合作伙伴包括神州数码、湘江鲲鹏(拓维信息)、安擎、宝德、华鲲振宇(长虹)、长江计算、黄河科技、新华三、百信、清华同方、广电五舟等。
2)基础软件:
3)行业应用伙伴:广大合作伙伴与华为一起,已经推出了众多AI解决方案,在运营商、金融、互联网、能源、交通、教育、医疗等各个行业获得广泛应用,并在实践中创造了很好的行业价值。
04
投资标的
以为代表的大模型时代来临,语音、图片、视频等多模态AI技术快速崛起,更广的数据形态、更多的应用场景、更深的用户体验,算力需求陡增。而AI芯片作为算力的核心,目前被海外厂商占据大部分,而国内华为昇腾、海光信息、寒武纪、百度等龙头正在加速布局。考虑到除了GPU本身的技术壁垒外,软件生态也成为强化GPU厂商竞争力的重要屏障,建议关注产品性能突出、生态完善、下游应用丰富的海光和鲲鹏及其合作伙伴:1)海光生态中的海光信息、中科曙光等;2)昇腾生态中的神州数码、拓维信息、常山北明等。
05
风险提示
AI技术迭代不及预期风险:若AI技术迭代不及预期,NLP技术理解人类意图水平未能取得突破,则对产业链相关公司会造成一定不利影响。
经济下行超预期风险:若宏观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和产业链生产意愿,对整个行业将会造成不利影响,NLP技术应用落地将会受限。
行业竞争加剧风险:若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对目前行业内企业的增长产生威胁。
近期热文: