chatgpt 预训练大模型算力 ChatGPT 背后的大规模预训练模型 GPT

默认分类2年前 (2023)发布 admin

3,048 0 0

背后的大规模预训练模型 GPT-3.5 能力强大，领先国内大模型一个代差。国内大模型百花齐放，如果要追赶并生产出类产品，首先要有能跟国际比肩的高性能基座模型，例如类 GPT-3 模型。数据、算法、算力是实现人工智能的三要素，并且缺一不可，大模型为代表的AI新时代，算力便是核心竞争力。一个应用的算力消耗已经让人瞠目。其大模型GPT经历了三次迭代，GPT、GPT-2和GPT-3(当前开放的版本为GPT-3.5)的参数量从1.17亿增加到1750亿，预训练数据量从5GB增加到45TB，其中GPT-3训练单次的成本就已经高达460万美元。最新的GPT3.5在训练中使用了微软专门建设的AI计算系统，由1万个V100 GPU组成的高性能网络集群，总算力消耗约-days，即假如每秒计算一千万亿次，需要计算3640天。国产自研的源1.0、悟道和文心等AI模型，不仅在参数量上达到了千亿级别，而且数据集规模也高达TB级别。想要搞定这些“庞然大物”的训练，就至少需要投入超过/s-day(PD)的计算资源。据《2021~2022全球计算力指数评估报告》显示，美国计算力指数得分为77分，中国为70分，分列世界前两位，同处于领跑者位置，整体而言，差距并不大。

但每一次 AI 技术的突破和产业的爆发都离不开强大的 AI 算力底座支持，尤其对于超大模型，由于参数规模大、数据体量大，因此需要更大的算力支持。据了解单次模型训练耗时1个月，单次训练算力约为3640 PFlop/s-day，单日推理算力需求为4874.4 PFlop/s-day，训练成本达1200万美元。成都智算中心 CTO 刘松认为：“类似这种超大参数量的大模型背后隐藏了强大的算力基础，只有同时具备超大算力集群，结合超大数据集和创新性的算法才能孵化类似的的技术成果，带给大家无尽的想象空间。2月13日，北京市经济和信息化局在北京人工智能产业创新发展大会上，正式发布《2022年北京人工智能产业发展白皮书》。里面提到，全面夯实人工智能产业发展底座，支持头部企业打造对标的大模型，着力构建开源框架和通用大模型的应用生态。加强人工智能算力基础设施布局。加速人工智能基础数据供给。此外，2022年底之前，上海（浦东新区）、深圳、济南-青岛、北京、天津（滨海新区）、杭州、广州、成都、南京、武汉、长沙等11个国家人工智能创新应用先导区，也陆续发布了当地人工智能专项行动方案或发展规划，但在时间进展和侧重各有不同，突出了因地制宜和差异化发展要素。

chatgpt 预训练大模型算力 ChatGPT 背后的大规模预训练模型 GPT

2023年1月，成都市也发布了《成都市围绕超算智算加快算力产业发展的政策措施》，标志着成都“一体两翼”算力政策体系的正式形成。“算力产业12条”的新鲜出炉，让成都成为全国首个专门出台算力产业专项政策的城市。对于企业、高校、科研机构联合成都智算中心在部分领域形成解决方案和商用案例的，按政策可给予最高100万元的一次性奖励，另外还有1000万“算力券”、吸引全球优秀AI人才等一系列政策措施。