上一篇我们发了《对现有生态的影响》,引发了海内外实业,一二级投资者的关注,特别是对算力章节的测算,几乎是国内第一篇,当几乎其他文章都还在定性分析时,我们已经进入到了下一个环节,定量分析了,而且首次援引海外的基础假设模型测算了假如 1亿日活的算力均值投入。
2.10发布,到上周末 9天,我们接受了海内外接近100人次的问询和讨论,我们也就这些问题做个总结,并更正一版。上一版我们国内首家援引数据模型。但经过论证,里面有个关键假设不符合事实。别提醒一下,引用我们上一版的兄弟们,注意一下,那个350ms的设定有问题,我们现在主动提出更正了(上一篇手误,单个字大约在上消耗50ms,这里应该是350ms,粘贴的时候少粘贴了一个3,我们截图里面英文的模型假设就是350ms,是对的)。过去四天我们反复咨询了4-5个英伟达的内部高级工程师以及销售,还有海外微软的人,对OPEN AI现有投入还有A100的算力,以及稀疏计算,批量处理还有优化架构有了进一步认识,所以可以肯定,单个字在上消耗350ms的设定是有问题的,这个时长低估了A100的算力,也低估了Open AI 优化架构的能力,这里面有几倍的差额。
现阶段访问算力存在一些误差,但是未来提升参数的训练,以及嵌入bing的算力增长,那又是几倍,十几倍的增长,算力的消耗依然是个惊人的数字。
为了精确数值,在业内人士帮助下,查阅很多资料,找到一个目前最能自恰的算法。
第一步,拆解字。“token”是当前语言类模型的数据单位。当前的自回归语言模型是根据 token 来作为单位进行数据处理和计算,分词()就是将句子、段落、文章这类型的长文本分解为以 token 为单位的数据结构,把文本分词后每个词表示成向量进行模型计算。例如在英文语境下,“happy”可能被分解为“hap”、“-py”两个 token,中文语境下,“我很开心”可以分成“我”,“很”,“开心”三个 token。
第二步,对A100算力单台售价和租赁价格进行再复习。以英伟达 DGX A1OO 服务器作为计算资源:(1)单台服务器售价 19.9 万美元;(2)采用云服务单天成本约为 460 美元。英伟达超算 GPU 系列从旧到新包括 P100、V100、A100、H100 等,三年迭代一次,一次算力提升3-5倍,最新的一代H100,专门针对大模型开发,大约能提升算力9倍。谋求按全球主要芯片还是A100,一个DGX服务器有 8 个 A100 系列 GPU,AI算力性能为 5 /s(记住这个数),单机最大功率 6.5kw,售价 19.9 万美元;如果租用云服务,在亚马逊 AWS预定一年的 A100 系列 GPU,有 8 个 A100 的 AWS P4 实例的平均成本约 19.22 美元,一天的平均成本约为 461.28 美元。
第三步,测算1000个字(英语)消耗的计算资源是多少。最常见的 类语言模型在推理过程中每个 token 的计算成本(以 FLOPs 为指标)约为 2N,其中N 为模型参数数量(20 年发布的 GPT-3 拥有 1750 亿参数,22 年谷歌发布的PaLM 拥有 5400 亿参数,由于并未公布当前GPT3.5 的参数数量,当前假定参数数量为 3000 亿),假设模型的 FLOPS 利用率约为 20%,粗略估计 一个 1000字(假设约 1333个 token,注:在英文语境下,一般 1000 个 token=750 个单词)问题需要的算力资源为 2*1333*3000 亿/20%=/S。
第四步,假设每天产能的总字数,然后除以A100的算力,就得到数量。23 年 1 月份当前 日活约1300 万人,每人平均 1000 字左右的问题,因此合计产生约 130 亿字(173.3 亿个 ·=601./S,由于访问流量存在峰值,假定访问峰值是一天均值的 5 倍,除以一台服务器 5 /s,因此共需要 602 台 DGX A100 服务器能够满足当前的访问量。
这就是现在日活1300万人,平均一个人1000字问题对应的算力需求,602台服务器,1.2亿美金,英伟达的主要收入。题外话,602台服务器,一个机柜需要对应45.5KW的功耗,不算机柜本身散热,就本身运转24小时的耗电就是93912度电,这样的高能耗机柜都不是常见机柜,国内平均机柜功率在6.6kw。海内外都是专建,大部分IAAS基础云厂商特别定制。
第五步,算一下自建成本和租赁成本。自建 IDC:服务器成本约占数据中心成本 30%左右,为满足当前日常访问需求,前期一次性成本。投入约为 602*19.9/30%=3.99 亿美元。(这个数和目前产业里面得到数基本一致)
云服务:假设每天租用亚马逊 AWS 云服务,每天成本为 461.28*602=27.77 万美元
每天成本27.77万美金 除以 一天1300万*10个问题,平均一条问题 成本0.2美分,一个人一天 1000个字 大概2美分成本。open ai的首席执行官Sam 在去年12月 用户突破 100万的时候,回复过“单次对话平均费用几美分”。伴随用户数增加,open ai优化架构 ,单次成本下降较快,也有可能是 Sam的一次对话包含了十个问题这样。海外分析师最新估测一次问题是0.36美分,和我们用token计算结果比较吻合。
再说一下海外软件应用者的成本,和等公司使用它们的视频生成工具或者AI文案工具,引入了技术。已经有8万名营销者使用软件,用它生成广告、邮件、博文及其它内容。增长很快,今年营收预计将会翻倍,达到8000万美元。成本上,这些公司使用技术需要获得授权,拿到授权要付费,一美分或者稍多能生成2万单词的文本(大概率对应的一次模型处理访问,2B应用输出结果长短和2C不一样),按照书面提示生成一张图片大约要2美分。即使这样收费,鼓励小应用公司接入open ai生态,公司目前也是亏钱的,收费低于自身算力成本投入。
未来的预测:对于未来的预测,主要基于三个情景的预测:
1、参数百倍增长的需求!!一个是GPT-4,参数的100倍增长,在我们刚刚模型里,N对应的是模型的参数量,假设到GPT-4,100w亿个参数,在不使用H100或者优化架构的假设下,那单日访问算力要求就是6万台A100,多少钱呢?仅给英伟达的算力投入就是120亿美金,这显然太贵了!如果用H100,援引黄仁勋“在 AI 任务上,H100 的 FP8 精度算力是 A100上 FP16 的六倍”;单价假设是A100服务器的1.7倍(单片H100,4W美金,单片A1002.4万美金),即33.8w美金,为了维持GPT-4的运行,单日也需要1万台H100服务器,一次投入成本33.8亿美金,这显然也很贵,只能再结构上再优化,再想办法降低投资,没办法,这只是给英伟达的成本,而服务器成本仅仅是数据中心成本的35%。
2、访问量的百倍增长需求,我们现在一切的假设都是基于1300万日活,一个人1000字的问题(10个问题,一个100字)进行假设,按照它的线性曲线,突破到日活1亿是很快的事情,如果应用终端好,突破到10亿也很快,它同样面临百倍算力提升的需求。就是把刚刚公式又计算一遍。
3、嵌入终端应用,会增加算力损耗。预计在 结合 Bing 搜索功能后,其算力成本预计将成数倍增长。当前 模型可以理解为在一个在庞大训练数据集上训练的 LLM,它会将训练期间的知识存储到模型参数中。在推理过程中(使用模型生成输出),LLM 无法访问外部知识,仅依靠模型参数进行计算;如果将 与搜索功能结合,如 Bing 等搜索引擎,其计算过程将通过搜索引擎返回多个查询结果,并通过 GPT 计算生成多个响应,在返回最高分的响应给用户,其对算力资源的消耗将成数倍增长,增长倍数取决于搜索和响应的个数。目前嵌入BING,增加的算力要求从7-30倍数据不等,各方人士说法都不一样。
总结一下,按照目前对算力的需求,不增加投资是不行的,未来访问量和参数各自十倍以上增加,算力需求更要百倍级增加。除非它的GPT-4不做那么大参数,例如做个瘦身版,小几十万参数,或者在架构或者稀疏计算或者别的方面提升处理能力,否则它只能大额追加投资,或者现在就开始收费。目前看到的结果是公司股东追加大投入,也在一些场景尝试收费,完善自己2B 2C生态。