chatgpt用到的六大算法 ChatGPT专题研究：ChatGPT狂飙破壁，现象级AI应用引发范式革命

默认分类2年前 (2023)发布 admin

2,549 0 0

算法、算力和数据是人工智能发展的三驾马车，也是推动人工智能发展的重要基础。算法层面，超大规模预训练模型推动AI效果不断提升。当前，预训练模型参数数量、训练数据规模按照 300 倍/年的趋势增长，继续通过增大模型和增加训练数据仍是短期内演进方向。算力层面，单点算力持续提升，算力定制化、多元化成为重要发展趋势。计算技术围绕数据处理、数据存储、数据交互三大能力要素演进升级，类脑芯片、量子计算等方向持续探索。数据层面，以深度学习为代表的人工智能技术需要大量的标注数据，这也催生了专门的技术和服务，随着面向问题的不断具体化和深入，数据服务走向精细化和定制化。

二、巨量数据规模引发质变，AI模型算力紧缺

大型预训练模型引发质变

基础算法模型的出现，为NLP和CV训练领域提供了强大支持。的GPT预训练模型，以及百度的ERNIE模型，都是基于模型建立。 Al 预训练模型，又称为大模型、基础模型 ( model)，即基于大量数据(通常使用大规模自我监督学习)训练的、拥有巨量参数的模型，能适应广泛的下游任务。预训练模型能够满足真实内容消费场景中的灵活多变、高精度、高质量等需求。随着2018 年谷歌发布基于机器学习方法的自然语言处理预训练模型 BERT，人工智能领域进入了大炼模型参数的预训练模型时代。预训练模型成为 AI 技术发展的范式变革，许多跨领域的 AI 系统将直接建立在预训练模型上。

AI模型数据规模增长，AI算力需求井喷

当前，预训练模型参数数量、训练数据规模按照 300 倍/年的趋势增长，继续通过增大模型和增加训练数据仍是短期内演进方向。未来使用更多种图像编码、更多种语言、以及更多类型数据的预训练模型将会涌现。当前算力距离AI应用存巨大鸿沟。根据 Open AI 数据，模型计算量增长速度远超人工智能硬件算力增长速度，存在万倍差距。英特尔表示，目前的计算、存储和网络基础设施远不足以实现元宇宙愿景，而要想实现真正的元宇宙，目前的计算能力需量要再提高1000倍。

据IDC预计， 2021-2026年期间，中国智能算力规模年复合增长率达52.3%。2022年智能算力规模将达到268.0 ，预计到2026年智能算力规模将进入每秒十万亿亿次浮点计算（）级别，达到1,271.4 。运算数据规模的增长，带动了对AI训练芯片单点算力提升的需求，并对数据传输速度提出了更高的要求。

算力升级：AI训练芯片空间广阔

IDC预计，到2025年人工智能芯片市场规模将达726亿美元。IDC全球范围调研显示，人工智能芯片搭载率将持续增高。目前每台人工智能服务器上普遍多配置2个GPU，未来18个月，GPU、ASIC和FPGA的搭载率均会上升。通用性递减，专用性增强，为AI芯片的主要发展方向。 2021年中国以GPU为主实现数据中心计算加速，GPU在算力芯片的市场占有率接近90%。ASIC，FPGA，NPU等非GPU芯片市场占有率超过10%。国际科技网络巨头公司谷歌、脸书，亚马逊等等在AI芯片领域从云端训练到终端产品应用，在开源框架赋能产业行业上有一定的领先优势。国内企业也在打造从AI芯片注重云端训练+AI芯片终端响应+AI算法框架开源的生态体系。

算力升级：冯氏架构“破壁者”，存算一体突破瓶颈

冯氏架构以计算为中心，计算和存储分离，二者配合完成数据的存取与运算。然而，由于处理器的设计以提升计算速度为主，存储则更注重容量提升和成本优化，“存”“算”之间性能失配，从而导致了访存带宽低、时延长、功耗高等问题，即通常所说的“存储墙”和“功耗墙”。存算一体作为一种新的计算架构，被认为是具有潜力的革命性技术。核心是将存储与计算完全融合，有效克服冯·诺依曼架构瓶颈，并结合后摩尔时代先进封装、新型存储器件等技术，减少数据的无效搬移，从而提升计算效率。中国移动已将存算一体纳入算力网络的十大关键技术。

当前NOR Flash、SRAM等传统器件相对成熟可率先开展存内计算产品化落地推动。新型器件中RRAM各指标综合表现较好，MRAM寿命和读写性能较好，均有各自独特优势与发展潜力可持续推动器件成熟，同步进行存内计算探索。三星电子、SK海力士、台积电、美光、IBM、英特尔等都在进行存算一体技术的研究。国内公司中，亿铸科技、千芯科技、后摩智能专注于大算力存算一体芯片，闪易半导体、苹芯科技、知存科技、智芯科、九天睿芯专注于小算力存算一体芯片。

传输升级：高速光模块放量

传输速度迭代不止，高速光模块出货预计大幅增长。据统计，2021年，200G、400G和800G的高速以太网光模块发货量达222万只，2022年预计将达600万只，同比170%以上，800G的产品有望在2022年开始逐步放量。据年3月预测，未来随着AI、元宇宙等新技术不断发展，以及网络流量长期保持持续增长，以太网光模块销售额也将保持较快增长并不断迭代升级。预计到2027年，以太网光模块市场将达到100.11亿美元。

传输升级：CPO与硅光技术降本增效

CPO（协同封装光子技术）提升数据中心应用中的光互连技术。CPO将光学器件和ASIC紧密结合在一起，通过 Co- 的封装方式，大体积的可插拔模块被简单的光纤配线架所取代，因此前面板的物理拥塞得以缓解。而交换机和光学器件之间的电气通道大大缩短，因此CPO将增加带宽和缩小收发器尺寸，提升系统集成度，同时降低功耗和封装成本。

据预测，数据中心将率先使用CPO封装技术。同时，随着AI集群和HPC的架构正在不断演进发展，可能会看到CPO部署在GPU、 TPU以及以太网、或交换机上，另外有许多基于FPGA的加速器也可能受益于CPO。预测在2027年，CPO端口将占总800G和 1.6T端口的近30%。据机构CIR预测，CPO市场规模将在2025年超过13亿美元，2027年达到27亿美元。

硅光芯片基于绝缘衬底上硅（-On-，SOI）平台，兼容互补金属氧化物半导体 ( Metal ， CMOS）微电子制备工艺，同时具备了 CMOS 技术超大规模逻辑、超高精度制造的特性和光子技术超高速率、超低功耗的优势。硅光芯片商业化至今较为成熟的领域为数据中心、通信基础设施等光连接领域。目前，硅光技术在第一代4x25G光模块中主要应用于500m内的100G PSM4；在第二代产品中，应用有100G DR1/FR1和LR1，作用于500m-10km场景中；在400G产品中，主要聚焦在2km以内的中短距离传输应用场景，产品有400G DR4。未来随着技术逐渐成熟，激光雷达、光子计算等领域的应用有望实现突破。

chatgpt用到的六大算法 ChatGPT专题研究：ChatGPT狂飙破壁，现象级AI应用引发范式革命

三、AIGC跨越数据鸿沟，合成数据与日精进

狂飙出圈，AIGC迎发展快车道

AIGC（人工智能生成内容）的狭义概念是利用AI自动生成内容的生产方式。在AIGC场景下，人工智能可灵活运用于写作、编曲、绘画和视频制作等创意领域。初步估计，到2025年，人工智能生成数据占比将达到10%。根据《 AI：A New World》的分析，AIGC有潜力产生数万亿美元的经济价值。属于AIGC技术在自然语言对话场景的应用。的火速出圈，将AIGC推向新的高度。

AIGC提供数据燃料，驱动AI技术发展

AIGC正朝着效率和品质更高、成本更低的方向发展。根据能够快速、准确地生产聊天内容的表现，可大胆推测，未来AIGC技术将会把创造和知识工作的边际成本降至零，以产生巨大的劳动生产率和经济价值。数据是人工智能的燃料和驱动力，人工智能发展所需的海量数据也能通过 AIGC 技术生成、合成出来，即合成数据( data )。合成数据可以在数学上或统计学上反映真实世界数据的属性，因此可以作为真实世界数据的替代品，来训练、测试、验证 Al 模型。

跨越数据鸿沟，合成数据推进实现AI 2.0

合成数据将极大拓展人工智能发展应用的数据基础。将合成数据和强化学习、网络、联邦学习、因果推理视为实现人工智能2.0 的五项关键技术进展，可以解决人工智能 1.0 所面临的一些限制和挑战，诸如数据、准确性、速度、安全性、可扩展性等。预测称，到 2030 年合成数据将彻底取代真实数据成为 AI 模型所使用的数据的主要来源。

合成数据为数据要素创造增量，潜在商业价值待挖掘

根据的数据，合成数据市场规模在 2021 年大概是 1.1 亿美元，到2027 年将达到 11.5 亿美元。Grand View 预测，Al 训练数据市场规模到 2030 年将超过 86 亿美元。预测，到 2024 年用于训练 Al 的数据中有 60% 将是合成数据，到2030 年 AI 模型使用的绝大部分数据将由人工智能合成。合成数据作为数据要素市场的新增量，在创造巨大商业价值的同时，也有望解决人工智能和数字经济的数据供给问题。

报告节选：

chatgpt用到的六大算法 ChatGPT专题研究：ChatGPT狂飙破壁，现象级AI应用引发范式革命