背后的大规模预训练模型 GPT-3.5 能力强大,领先国内大模型一个代差。国内大模型百花齐放,如果要追赶并生产出类 产品,首先要有能跟国际比肩的高性能基座模型,例如类 GPT-3 模型。数据、算法、算力是实现人工智能的三要素,并且缺一不可,大模型为代表的AI新时代,算力便是核心竞争力。一个应用的算力消耗已经让人瞠目。其大模型GPT经历了三次迭代,GPT、GPT-2和GPT-3(当前开放的版本为GPT-3.5)的参数量从1.17亿增加到1750亿,预训练数据量从5GB增加到45TB,其中GPT-3训练单次的成本就已经高达460万美元。最新的GPT3.5在训练中使用了微软专门建设的AI计算系统,由1万个V100 GPU组成的高性能网络集群,总算力消耗约-days,即假如每秒计算一千万亿次,需要计算3640天。国产自研的源1.0、悟道和文心等AI模型,不仅在参数量上达到了千亿级别,而且数据集规模也高达TB级别。想要搞定这些“庞然大物”的训练,就至少需要投入超过/s-day(PD)的计算资源。据《2021~2022全球计算力指数评估报告》显示,美国计算力指数得分为77分,中国为70分,分列世界前两位,同处于领跑者位置,整体而言,差距并不大。
但每一次 AI 技术的突破和产业的爆发都离不开强大的 AI 算力底座支持,尤其对于超大模型,由于参数规模大、数据体量大,因此需要更大的算力支持。据了解 单次模型训练耗时1个月,单次训练算力约为3640 PFlop/s-day,单日推理算力需求为4874.4 PFlop/s-day,训练成本达1200万美元。成都智算中心 CTO 刘松认为:“类似这种超大参数量的大模型背后隐藏了强大的算力基础,只有同时具备超大算力集群,结合超大数据集和创新性的算法才能孵化类似的 的技术成果,带给大家无尽的想象空间。2月13日,北京市经济和信息化局在北京人工智能产业创新发展大会上,正式发布《2022年北京人工智能产业发展白皮书》。里面提到,全面夯实人工智能产业发展底座,支持头部企业打造对标 的大模型,着力构建开源框架和通用大模型的应用生态。加强人工智能算力基础设施布局。加速人工智能基础数据供给。此外,2022年底之前,上海(浦东新区)、深圳、济南-青岛、北京、天津(滨海新区)、杭州、广州、成都、南京、武汉、长沙等11个国家人工智能创新应用先导区,也陆续发布了当地人工智能专项行动方案或发展规划,但在时间进展和侧重各有不同,突出了因地制宜和差异化发展要素。
2023年1月,成都市也发布了《成都市围绕超算智算加快算力产业发展的政策措施》,标志着成都“一体两翼”算力政策体系的正式形成。“算力产业12条”的新鲜出炉,让成都成为全国首个专门出台算力产业专项政策的城市。对于企业、高校、科研机构联合成都智算中心在部分领域形成解决方案和商用案例的,按政策可给予最高100万元的一次性奖励,另外还有1000万“算力券”、吸引全球优秀AI人才等一系列政策措施。