【编者按:生成式AI已经成为科技界、产业界、投资界炙手可热的话题,以 为代表的相关产品又一次启发了人类对于人工智能技术的想象。不过立足当下,生成式AI短期内发展前景仍然尚不明晰,生成式AI的技术堆栈现状是什么?处于不同层级的参与者又面临着怎样亟待解答的难题?上述问题均在该文中得到解答,相信可以帮助读者在又一轮高涨的市场情绪中获得更加理性的独到见解。该文由国际知名VC机构A16Z的Matt 、 Guido 和 撰写,并将以标题“Who Owns the AI ”(“谁拥有生成式 AI 平台?”)在其公司官网发表。我们特编译出来和各位客户、合作伙伴朋友分享。】
我们开始看到人工智能领域正在步入技术堆栈的早期阶段(注:“技术堆栈”一词描述了一组应用程序,数字工具和平台,供应商,数据源或编程语言,它们组合在一起以提供战略业务功能)。数以百计的新创业公司正涌入市场,开发基础模型、构建 AI 原生应用程序并建立基础设施/工具。
许多热门技术趋势在被市场赶上之前就被过度炒作了。但是,生成式人工智能的繁荣伴随着来自市场的实际收益,以及来自相关应用的真实吸引力。 和 等模型正在创造用户增长的历史记录,多个应用程序在推出后不到一年的时间就达到了 1 亿美元的年化收入。对比显示,人工智能在某些任务中的表现优于人类多个量级。
因此,有足够的早期数据表明大规模变革正在发生。但关键问题是:这个市场的价值将在哪里?
在过去的一年里,我们会见了数十位直接与生成 AI 打交道的初创公司创始人和运营商。我们观察到,基础架构供应商可能是该市场迄今为止的最大赢家,占据了流经该领域的大部分资金。应用程序公司的收入增长非常快,但往往在留存率、产品差异化和毛利率方面苦苦挣扎。而大多数模型提供商,虽然对于这个市场的存在不可或缺,但尚未实现大规模的商业规模。
换句话说,创造最大价值的公司——即训练生成式 AI 模型并将其应用于新程序——并没有获得大部分价值。很难预测接下来会发生什么,但我们认为要了解的关键是堆栈的哪些部分是真正差异化和可防御的。这将对市场结构和长期价值的驱动因素(例如利润率和保留率)产生重大影响。到目前为止,除了传统的公司护城河要素之外,我们很难在堆栈之中找到其他结构性防御要素。
我们非常看好生成式人工智能,相信它将对软件行业及其他行业产生巨大影响。这篇文章的目的是描绘出市场动态,并尝试回答有关生成式 AI 商业模式的更广泛问题。
技术堆栈:基础架构、模型和应用程序
要了解生成式人工智能市场是如何形成的,我们首先需要搞明白堆栈如今的情况。
堆栈可以分为三层(需要注意的是:这不是市场地图,而是分析市场的框架):
第一波生成式 AI 应用程序开始形成规模,但在留存率和差异化方面举步维艰
在之前的技术周期中,传统观点认为,一家大型独立公司想要立足必须拥有终端客户——无论是个人消费者还是 B2B 买家。循着这个思路。人们很容易相信生成式AI领域的大公司也将面对终端用户。但到目前为止,还不清楚是否如此。
可以肯定的是,在纯粹的新奇感和大量用例的推动下,生成式 AI 应用程序的增长一直是惊人的。事实上,据我们所知,至少在图像生成、文案撰写和代码编写这三个产品类别的年收入已经超过 1 亿美元。
然而,仅靠增长还不足以建立经久不衰的软件公司,至关重要的是,增长必须是有利可图的——从某种意义上说,用户和客户一旦注册,就会产生利润(高毛利率)并长期坚持(高保留率)。在缺乏强大技术差异性的情况下,B2B 和 B2C 应用程序通过网络效应、立足数据或构建日益复杂的工作流程来推动长期客户价值。
在生成式AI中,这些假设不一定成立。在我们交谈过的应用程序公司中,毛利率区间很大——在少数情况下高达 90%,但更常见的是低至 50-60%,这主要是受模型推理成本的影响。Top-of-(注:即销售过程的第一阶段,此阶段通常指获取更多的曝光,积累更多的用户数据的过程)的增长非常惊人,但目前尚不清楚当前的客户获取策略是否具有可扩展性——我们已经看到付费获客的有效性和保留率开始下降。许多应用程序之间也没有差异化,因为它们依赖于类似的底层人工智能模型,并且尚没有拥有竞争对手难以复制的明显网络效应或数据/工作流。
因此,尚不得知面对终端用户的应用程序是否是建立可持续的生成式 AI 业务的唯一甚至最佳途径。随着语言模型的竞争和效率的提高,利润率应该会提高(更多内容见下文)。随着 AI 市场进一步整合,留存率应该会增加。有一个强有力的论据表明,垂直整合的应用程序在提高差异化方面具有优势,但是还有很多东西需要证明。
展望未来,生成式 AI 应用程序公司面临的一些重大问题包括:
模型提供商们发明了生成式人工智能,但尚未达到大规模商业规模
如果没有像、和之类的公司所做出研发贡献,现在所说的生成式 AI 根本不会存在。通过它们创新性的模型架构和扩展训练通道所付出的巨大努力,当前大型语言模型 (LLM) 和图像生成模型令人惊叹的功能令所有人受益。
然而,与使用量和口碑相比,这些公司与之相关的收入仍然相对较小。在图像生成方面,在包含用户交互、产品托管和微调模型在内的生态系统的支持下, 出现了爆炸性的用户社群增长。但 基于业务的核心原则将这些关键服务免费提供。在自然语言模型中, 凭借GPT-3/3.5和 占据主导地位,但到目前为止,基于 构建的杀手级应用依然相对较少,即使价格已经下降了一次。
这可能只是暂时的现象。 是一家尚未专注于赚钱的新公司。 有潜力成为一项庞大的业务,随着越来越多的杀手级应用程序的构建,它在所有 NLP 类别的收入中占据很大一部分——特别是如果它们顺利集成到 的产品组合中。鉴于这些模型的大量使用,大规模的收入可能并不遥远。
但也有相反的一面。作为开源发布的模型可以由任何人托管,包括不承担与大规模模型训练相关的费用(高达数千万或数亿美元)的外部公司。并且目前尚不清楚是否有任何闭源模型可以无限期地保持其优势。例如,我们开始看到由 、 和 .ai 等公司构建的 LLMs 更接近 的性能水平,它们都是在类似的数据集(即互联网)上训练并使用类似的模型架构。 的例子表明,如果开源模型达到足够的性能水平和社区支持,那么专有替代品可能会发现很难与之竞争。
到目前为止,对于模型提供商来说,最清晰的收获可能是觉察到托管服务在商业化层面大有可为。对专有 API(例如来自 )的需求正在迅速增长,开源模型(例如 Face 和 )的托管服务正在成为方便共享和集成模型的有用中心——甚至在模型提供商和消费者之间产生一些间接的网络效应。还有一个有力的假设是,可以通过与企业客户的微调和托管协议来获利。
不过,除此之外,模型提供商还面临许多重大问题:
基础设施供应商触及一切,并获得回报
生成式 AI 中的几乎一切都在某种程度上通过云托管 GPU(或 TPU)。无论是运行训练负载的模型提供商/研究实验室、运行推理/微调的托管公司,还是进行两者某种组合的应用程序公司——FLOPS(每秒浮点运算次数)都是生成式 AI 的命脉。这是很长一段时间以来首次,最具颠覆性的计算技术的进步受到算力的限制。
因此,生成式AI市场的大量资金最终流向了基础设施公司。下面列出一些非常粗略的数字:我们估计,平均而言,应用程序公司将大约 20-40% 的收入用于模型推理和微调,而这通常直接支付给云提供商或第三方模型提供商——后者又将大约一半的收入用于云基础设施。因此,有理由猜测今天生成式AI总收入的 10-20% 流向了云提供商。
最重要的是,训练自己模型的初创公司已经从风投那里筹集了数十亿美元——其中大部分(早期高达 80-90%)通常也用于云提供商。许多上市科技公司每年花费数亿美元用于模型训练,要么与外部云提供商合作,要么直接与硬件制造商合作。
用技术术语来说,这就是我们所说的“大量资金”——尤其是对于新兴市场而言。其中大部分用于三大云:亚马逊网络服务 (AWS)、谷歌云平台 (GCP) 和 Azure。这些云提供商每年总支出超过1000 亿美元,以确保他们拥有最全面、可靠且具有成本优势的平台。特别是在生成式 AI 中,他们还受益于供应限制,因为他们可以优先使用稀缺硬件(例如 A100 和 H100 GPU)。
不过,有趣的是,我们开始看到可观的竞争出现。像甲骨文这样的挑战者已经通过大笔资本支出和销售激励措施取得了进展。一些初创公司,如 和 Labs,凭借专门针对大型模型开发人员的解决方案迅速成长。他们在成本、可用性和个性化支持方面展开竞争。它们还公开了更细粒度的资源抽象,而由于 GPU 虚拟化限制,大型云仅提供 VM 实例。
在幕后运行绝大多数 AI 工作负载的可能是迄今为止生成式 AI 领域的最大赢家。该公司报告称,其 2023 财年第三季度的数据中心 GPU 收入为 38亿美元,其中相当一部分用于生成式 AI 用例。通过数十年来对 GPU 架构的投资、强大的软件生态系统以及在学术界的深入使用,他们围绕这项业务建立了强大的护城河。最近的一项分析发现, GPU 在研究论文中的引用次数是顶级 AI 芯片初创公司总和的 90 倍。
确实存在其他硬件选项,包括 Units (TPU)、AMD GPU、AWS 和 芯片以及 、 和 等初创公司的 AI 芯片。迟到的英特尔也以其高端 芯片和 Ponte GPU 进入市场。但到目前为止,这些新芯片中占据显著市场份额的很少。值得关注的两个例外是谷歌和台积电,谷歌的TPU 在 社区和一些大型 GCP 交易中获得了关注,而台积电被认为制造了这里列出的所有芯片,包括 GPU(英特尔混合使用其自己的晶圆厂和台积电来制造芯片)。
换句话说,基础设施是当下堆栈中有利可图、可持续且看似可防御的一层。基础设施公司需要回答的重大问题包括:
那么……价值将在哪里累积?
当然,我们还不知道。但根据我们拥有的生成式 AI 的早期数据,结合我们与早期 AI/ML 公司的经验,我们的直觉如下:
今天,生成式人工智能似乎没有任何系统性的护城河。应用程序缺乏很强的产品差异化,因为它们使用相似的模型;模型在长期来看也面临同质化,因为它们是在具有相似架构的相似数据集上训练的;云提供商缺乏深度的技术差异化,因为他们运行相同的 GPU;甚至硬件公司也在同一家工厂生产芯片。
当然,还有标准的护城河:规模护城河(“我拥有或可以筹集到比你更多的钱!”)、供应链护城河(“我有 GPU,你没有!”)、生态系统护城河(“每个人都已经在使用我的软件了!”)、算法护城河(“我们比你聪明!”)、分销护城河(“我已经有一个销售团队和比你更多的客户!”)和数据管道护城河(“我在互联网上爬取的数据比你多!”)。但从长远来看,这些护城河都不会持久。现在判断强大、直接的网络效应是否在堆栈的任何层中占据主导地位还为时过早。
根据可用数据,尚不清楚生成式 AI 是否会出现长期的、赢者通吃的动态。
这很奇怪。但对我们来说,这是个好消息。这个市场的潜在规模很难把握——介于所有软件和人的努力之间——所以我们期待在堆栈的各个级别都有很多玩家并产生健康的竞争。我们还期望横向和纵向公司都能够以经过最终市场和最终用户检验的模式获得成功。例如,如果最终产品的主要差异化是 AI 本身,那么垂直化(即将面向用户的应用程序与本土模型紧密耦合)很可能会胜出。而如果 AI 是更大的长尾特征集的一部分,那么它更有可能向水平化趋势发展。当然,随着时间的推移,我们还应该看到更多传统护城河的建立——我们甚至可能会看到新型护城河站稳脚跟。
无论如何,我们可以肯定的是,生成式 AI 会改变游戏规则,将会释放出巨大的价值,因此技术领域将变得非常非常不同。我们为此而来!
END