chatgpt用到的六大算法 ChatGPT专题研究:ChatGPT狂飙破壁,现象级AI应用引发范式革命

默认分类1年前 (2023)发布 admin
2,538 0
ChatGPT国内版

算法、算力和数据是人工智能发展的三驾马车,也是推动人工智能发展的重要基础。 算法层面,超大规模预训练模型推动AI效果不断提升。当前,预训练模型参数数量、训练数据规模按照 300 倍/年的趋势增长,继续通过增大模型 和增加训练数据仍是短期内演进方向。 算力层面,单点算力持续提升,算力定制化、多元化成为重要发展趋势。计算技术围绕数据处理、数据存储、数据交互三大能力要素演进升级, 类脑芯片、量子计算等方向持续探索。 数据层面,以深度学习为代表的人工智能技术需要大量的标注数据,这也催生了专门的技术和服务,随着面向问题的不断具体化和深入,数据服 务走向精细化和定制化。

二、巨量数据规模引发质变,AI模型算力紧缺

大型预训练模型引发质变

基础算法模型的出现,为NLP和CV训练领域提供了强大支持。的GPT预训练模型,以及百度的ERNIE模型,都是基于 模型建立。 Al 预训练模型,又称为大模型、基础模型 ( model),即基于大量数据(通常使用大规模自我监督学习)训练的、拥有巨量参数的模型, 能适应广泛的下游任务。预训练模型能够满足真实内容消费场景中的灵活多变、高精度、高质量等需求。 随着2018 年谷歌发布基于 机器学习方法的自然语言处理预训练模型 BERT,人工智能领域进入了大炼模型参数的预训练模型时代。 预训练模型成为 AI 技术发展的范式变革,许多跨领域的 AI 系统将直接建立在预训练模型上。

AI模型数据规模增长,AI算力需求井喷

当前,预训练模型参数数量、训练数据规模按照 300 倍/年的趋势增长,继续通过增大模型和增加训练数据仍是短期内演进方向。未来使用更多种 图像编码、更多种语言、以及更多类型数据的预训练模型将会涌现。 当前算力距离AI应用存巨大鸿沟。根据 Open AI 数据,模型计算量增长速度远超人工智能硬件算力增长速度,存在万倍差距。英特尔表示,目前 的计算、存储和网络基础设施远不足以实现元宇宙愿景,而要想实现真正的元宇宙,目前的计算能力需量要再提高1000倍。

据IDC预计, 2021-2026年期间,中国智能算力规模年复合增长率达52.3%。2022年智能算力规模将达到268.0 ,预计到2026年智能算 力规模将进入每秒十万亿亿次浮点计算()级别,达到1,271.4 。 运算数据规模的增长,带动了对AI训练芯片单点算力提升的需求,并对数据传输速度提出了更高的要求。

算力升级:AI训练芯片空间广阔

IDC预计,到2025年人工智能芯片市场规模将达726亿美元。IDC全球范围调研显示,人工智能芯片搭载率将持续增高。目前每台人工智能服务器 上普遍多配置2个GPU,未来18个月,GPU、ASIC和FPGA的搭载率均会上升。通用性递减,专用性增强,为AI芯片的主要发展方向。 2021年中国以GPU为主实现数据中心计算加速,GPU在算力芯片的市场占有率接近90%。ASIC,FPGA,NPU等非GPU芯片市场占有率超过10%。 国际科技网络巨头公司谷歌、脸书,亚马逊等等在AI芯片领域从云端训练到终端产品应用,在开源框架赋能产业行业上有一定的领先优势。国内企 业也在打造从AI芯片注重云端训练+AI芯片终端响应+AI算法框架开源的生态体系。

算力升级:冯氏架构“破壁者”,存算一体突破瓶颈

冯氏架构以计算为中心,计算和存储分离,二者配合完成数据的存取与运算。然而,由于处理器的设计以提升计算速度为主,存储则更注重容量 提升和成本优化,“存”“算”之间性能失配,从而导致了访存带宽低、时延长、功耗高等问题,即通常所说的“存储墙”和“功耗墙”。 存算一体作为一种新的计算架构,被认为是具有潜力的革命性技术。核心是将存储与计算完全融合,有效克服冯·诺依曼架构瓶颈,并结合后摩尔 时代先进封装、新型存储器件等技术,减少数据的无效搬移,从而提升计算效率。中国移动已将存算一体纳入算力网络的十大关键技术。

当前NOR Flash、SRAM等传统器件相对成熟可率先开展存内计算产品化落地推动。新型器件中RRAM各指标综合表现较好,MRAM寿命和读写 性能较好,均有各自独特优势与发展潜力可持续推动器件成熟,同步进行存内计算探索。 三星电子、SK海力士、台积电、美光、IBM、英特尔等都在进行存算一体技术的研究。国内公司中,亿铸科技、千芯科技、后摩智能专注于大算 力存算一体芯片,闪易半导体、苹芯科技、知存科技、智芯科、九天睿芯专注于小算力存算一体芯片。

传输升级:高速光模块放量

传输速度迭代不止,高速光模块出货预计大幅增长。据统计,2021年,200G、400G和800G的高速以太网光模块发货量达222万 只,2022年预计将达600万只,同比170%以上,800G的产品有望在2022年开始逐步放量。 据年3月预测,未来随着AI、元宇宙等新技术不断发展,以及网络流量长期保持持续增长,以太网光模块销售额也将保持较快 增长并不断迭代升级。预计到2027年,以太网光模块市场将达到100.11亿美元。

传输升级:CPO与硅光技术降本增效

CPO(协同封装光子技术)提升数据中心应用中的光互连技术。CPO将光学器件和ASIC紧密结合在一起,通过 Co- 的封装方式,大体 积的可插拔模块被简单的光纤配线架所取代,因此前面板的物理拥塞得以缓解。而交换机和光学器件之间的电气通道大大缩短,因此CPO将增加 带宽和缩小收发器尺寸,提升系统集成度,同时降低功耗和封装成本。

据预测,数据中心将率先使用CPO封装技术。同时,随着AI集群和HPC的架构正在不断演进发展,可能会看到CPO部署在GPU、 TPU以及以太网、或交换机上,另外有许多基于FPGA的加速器也可能受益于CPO。预测在2027年,CPO端口将占总800G和 1.6T端口的近30%。据机构CIR预测,CPO市场规模将在2025年超过13亿美元,2027年达到27亿美元。

硅光芯片基于绝缘衬底上硅(-On-,SOI)平台, 兼容互补金属氧化物半导体 ( Metal , CMOS) 微电子制备工艺,同时具备了 CMOS 技术超大规模逻辑、超高精度制造的特性和光子技术超高速率、超低功耗的优势。硅光芯片商业化 至今较为成熟的领域为数据中心、通信基础设施等光连接领域。目前,硅光技术在第一代4x25G光模块中主要应用于500m内的100G PSM4;在第二代产品中,应用有100G DR1/FR1和LR1,作用于500m-10km场景中;在400G产品中,主要聚焦在2km以内的 中短距离传输应用场景,产品有400G DR4。未来随着技术逐渐成熟,激光雷达、光子计算等领域的应用有望实现突破。

chatgpt用到的六大算法 ChatGPT专题研究:ChatGPT狂飙破壁,现象级AI应用引发范式革命

三、AIGC跨越数据鸿沟,合成数据与日精进

狂飙出圈,AIGC迎发展快车道

AIGC(人工智能生成内容) 的狭义概念是利用AI自动生成内容的生产方式。在AIGC场景下,人工智能可灵活运用于写作、编曲、绘画和视频制 作等创意领域。初步估计,到2025年,人工智能生成数据占比将达到10%。根据《 AI:A New World》的分析,AIGC有 潜力产生数万亿美元的经济价值。 属于AIGC技术在自然语言对话场景的应用。的火速出圈,将AIGC推向新的高度。

AIGC提供数据燃料,驱动AI技术发展

AIGC正朝着效率和品质更高、成本更低的方向发展。根据能够快速、准确地生产聊天内容的表现,可大胆推测,未来AIGC技术将会把 创造和知识工作的边际成本降至零,以产生巨大的劳动生产率和经济价值。 数据是人工智能的燃料和驱动力,人工智能发展所需的海量数据也能通过 AIGC 技术生成、合成出来,即合成数据( data )。合成数据 可以在数学上或统计学上反映真实世界数据的属性,因此可以作为真实世界数据的替代品,来训练、测试、验证 Al 模型。

跨越数据鸿沟,合成数据推进实现AI 2.0

合成数据将极大拓展人工智能发展应用的数据基础。 将合成数据和强化学习、 网络、联邦学习、因果推理视为实现人工智 能2.0 的五项关键技术进展,可以解决人工智能 1.0 所面临的一些限制和挑战,诸如数据、准确性、速度、安全性、可扩展性等。 预测称, 到 2030 年合成数据将彻底取代真实数据成为 AI 模型所使用的数据的主要来源。

合成数据为数据要素创造增量,潜在商业价值待挖掘

根据 的数据,合成数据市场规模在 2021 年大概是 1.1 亿美元,到2027 年将达到 11.5 亿美元。Grand View 预测,Al 训 练数据市场规模到 2030 年将超过 86 亿美元。 预测,到 2024 年用于训练 Al 的数据中有 60% 将是合成数据,到2030 年 AI 模型使用 的绝大部分数据将由人工智能合成。合成数据作为数据要素市场的新增量,在创造巨大商业价值的同时,也有望解决人工智能和数字经济的数据 供给问题。

报告节选:

chatgpt用到的六大算法 ChatGPT专题研究:ChatGPT狂飙破壁,现象级AI应用引发范式革命

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...