主要客户名单如下:
商业模式方面,Scale 官网针对每款产品给出了标准化定价,定价模式为 -base 的模式。如 Scale lmage 起价为每张图片 2 美分,每条标注 6 美分;Scale Video 起价为每帧视频 13 美分,每条标注 3 美分;Scale Text 起价为每项任务 5 美分,每条标注 3 美分;Scale Al 起价为每项任务 2 美分,每条标注 7 美分。除此之外,还有针对 的收费方式,即根据具体的企业级项目的数据量及服务进行收费。
由于 Scale 的大部分客户都为 客户,因此实际上大部分收入均为项目制收入,客单价几十万美金至几千万美金不等。Scale 2022 年收入预计为 2.9 亿美元,毛利约为 70%。公司 2021 年 4 月完成 $325M 的 E 轮融资,投资者包括 、、Tiger 等,估值达$7.3B。
03.团队
Scale AI 于 2016 年诞生于 Y 创业项目,创始人为 Wang 和 Lucy Guo(2018 年 Lucy 离开 Scale AI,保留 6% 股权),两位创始人技术背景深厚。
Wang 出生于 1997 年,2014 年加入 Quora,并在 Quora 上结识 Lucy Guo,高中就收到很多硅谷科技公司的 offer,后在麻省理工学院攻读机器学习专业,选修的全是研究生级别的计算机课程,一年后毅然从麻省理工辍学。2016 年, Wang 和 Lucy Guo 在 YC 期间创办 Scale。
Wang 在 2011 年美国数学人才搜索 () 中获得铜牌,在 2012 年获得金牌;2013 年在美国数学奥林匹克竞赛中进入全国前 30 名,同时在 Who Wants to Be a 比赛中获得第三名;2014 年参加了美国国家物理奥林匹克竞赛 () 并进入半决赛,在 2018 年登上了“30 under 30”的榜单。
Wang 的履历非常亮眼,但大家对他的评价褒贬不一。他非常聪明、自信,能力强,善于维护外部关系,花费大量时间与硅谷关键人物建立关系。他也十分擅长 和 ,塑造很好的个人形象和企业形象,有观点认为 Scale 与其他竞对的差异性主要来自于 Alex 的宣传炒作,为公司带来了大量订单。但或许是因为年纪太小的缘故,Alex 管理公司的经验相对欠缺,公司内部管理较为糟糕,很多人才流失或不愿加入 Scale,企业内部也存在各类矛盾。我们在几位离职高管访谈中听到了非常负面的评价,但也在不少员工访谈中感受到部分员工对 Alex 发自内心的欣赏。
团队整体方面,Scale 整体执行力非常强,工作节奏和企业文化非常激进,偏好招顶级院校的应届毕业生,聪明、勤奋、执行力强、肯加班,Scale 的“卷”在硅谷非常有名。
04.竞争
Scale 的竞争对手包括:公司内部自建的数据标注团队;谷歌、微软和亚马逊等科技大厂的数据标注服务;数据标注创业公司。
类型一:公司内部自建的数据标注团队
由于某些数据比较敏感,有的公司会选择内部自建数据标注团队,作为 Scale 等外包方案的补充。例如 使用内部数据标注产品来标记隐私数据,并用于公司内部的机器学习模型,但是对于不敏感的数据, 通常会外包给第三方供应商进行标注。
原因有三:
•第三方供应商做数据标注可以比 内部自建团队更便宜;
•第三方供应商具有灵活性,可以根据 的需求灵活调整;
•数据标注并不是 的重点业务,第三方供应商的工具可以更准确高效地完成标注。
类型二:谷歌、微软和亚马逊等科技大厂
对于 Scale 而言,这些科技巨头既是客户,也是竞争对手。谷歌、亚马逊、微软等科技大厂比其他任何供应商都具有优势,因为规模效应的存在以及头部公司拥有广泛的产品集合。例如,Scale 在 AWS 上处理和标注数据,如果客户想把 Scale 标注的数据储存在 S3 中,需要给 Scale 开通访问权限,再由 Scale 将标注好的数据放入客户的 S3 存储空间中,这一系列操作会造成额外的成本。但如果客户数据本来就存储在谷歌、亚马逊和微软的云平台上,并使用他们的数据标注产品和服务,则无需进行访问授权、移动数据等步骤。
此外,微软、亚马逊、谷歌等科技大厂都希望客户能够在一个平台解决所有问题、采购他们的所有产品和服务,因此会在一揽子产品中,针对某个单一产品给一些折扣,甚至直接提供免费的工具,这会对 Scale 造成竞争压力。但微软等科技大厂大多只提供软件和工具,不提供人力服务,导致客户必须自己承担人力工作。而 Scale 提供人工标注数据以及其他的人力服务,在与科技大厂竞争中也具备一定的独特优势。
类型三:数据标注创业公司
如 、、、、V7、Appen 等。
提供了大量模板来让用户创建标注任务,也提供了托管服务。 与 、 和 DAS 都有很好的集成。 和 Scale 都是数据标注领域较大的供应商,有专家认为 未来不会在与 Scale 完全相同的赛道中,但两者都会有不错的增长。相比 Scale, 的优势在于更专注于文本和 NLP,以及成本较低,所以用户如果只是处理文本数据,一般会选择 而不是 Scale。 的劣势在于视频、图像、地图等处理能力非常有限。
是数据标注行业重要的供应商之一。功能丰富,允许用户以 等格式提取不同的标签,使用 SQL 对图像进行大量搜索,并将 SQL 与数据库合并。相比 Scale, 的优势在于医疗行业和工作流程。在医疗方面, 符合 HIPAA 标准,而 Scale 并不符合。 在创建工作流方面能力更强,比如提供指令,在此方面,Scale 正在追赶,但并没有达到 的水平。但整体来看, 的劣势在于标注质量不及 Scale。
的商业模式与 Scale 略有不同, 是给用户提供平台,用户可以选择自己进行数据标注或使用其他服务,但客户需要采用 平台作为内部数据标记工具。 通过美国国防部安全审查,也与各种组织展开合作,例如, 与 GCP 是合作伙伴关系,正在推动 GCP 云和谷歌云。
05.当前结论与判断为什么看好
1. 数据标注外包需求确定
数据标注外包需求明显,给创业公司很大的发挥空间。
一方面,从客户角度考虑,数据标注对于 AI 公司的员工而言属于脏活累活,会占用他们大量的时间,分散他们在算法等核心环节上的注意力,从主观角度看他们不愿意把时间花在标注上。
另一方面,从 ROI 角度考虑,大部分的数据标注工作对标注员的要求并不高,即美国的工人可以完成的工作肯尼亚的工人也可以完成,且质量差别不会很大。因此,如果不是特别隐私的数据、或不需要类似 RLHF 场景的语义理解等其他能力,通过第三方交由低成本国家和地区的劳动力来完成标注工作 ROI 是更高的。因此,数据标注外包的需求十分明显,创业公司长期有机会。
2. 数据标注赛道的头部玩家,头部效应、品牌效应强
Scale 是数据标注赛道的绝对的头部玩家,如果我们认为人工标注和“自动化+人工”的标注方式在未来 5-10 年内会长期存在,那么目前来看 Scale 会一直保持领先。从最真实的客户和订单来看,美国的 客户大多只认可 Scale 作为他们的第三方数据标注服务商,Scale 的客户可以说是美国 AI 各细分赛道的皇冠上的明珠,拥有最好的客户 base。
Scale 的销售团队在 pitch 客户时,所遇到的竞争对手几乎只有“大厂内部自建的团队”这一个解决方案,几乎没有遇到其他创业公司。只有在 SMB 市场或面向非头部企业的销售中会遇到其他创业公司。头部效应和品牌效应非常明显。关于品牌效应还可以补充一个观点,有客户说到这样一句话:“Scale 和其他数据标注公司就像 和安卓的关系。”Scale 品牌效应的形成也离不开 Alex 本人及团队极强的 PR 和 能力。
3. 规模效应已显现
数据标注赛道有规模效应。客户对数据标注的关注点主要在“质量”和“效率”两个方面,由于数据标注不是高技术含量的工作,因此经验对质量和效率的提升就起到关键作用。这里的经验又包括工人标注数据的经验,以及 Scale 对整套流程和体系的管理经验。经验一定程度上也与规模和数量有很大联系,规模越大,标注的数据量越多,经验就越成熟、越丰富,标注数据的质量和效率就越高。
作为赛道的头部玩家,以及与 客户合作,Scale 的订单量及数据量与其他竞对相比要大不少,再加上 Scale 在每波趋势刚刚兴起的时候,都能快速进入新兴领域,更早地获得“经验”,后续企业竞对便很难追上。
另一方面,Scale 将人工标注的经验沉淀为自动化的解决方案,在行业发展早期采用人工标注的方式,当行业成熟时已经能够训练出适配特定领域数据的自动化标注模型,变成“自动化+人工”的解决方案,大大提升效率。订单量和数据量足够大也能够更快速和高效地优化标注模型。因此,Scale 的规模效应非常明显。
4. 创始人与团队综合实力和执行力强
关于 Alex 在团队部分也有所介绍,一位非常聪明、激进、好胜心强的年轻人,且Alex 不仅在技术方面有很强的天赋,在商业方面也有很强的能力,比如运营、品牌、营销、销售、社交能力等等,综合实力强劲。Scale 团队综合能力也非常优秀,尤其是运营能力,对数据标注整套流程和体系的管理。Scale 的流程与管理体系、经验管理效果和效率都明显优于其他竞对企业,包括如何管理数据工人、如何给他们分工、如何进行激励或惩罚、如何检查质量、如何将数据交到客户手中、如何服务客户、又如何根据客户反馈重新标注数据提升标注质量等等,整个链路非常复杂,Scale 的高材生们能够把整套流程 好,每一个环节都极其高效、流畅、准确。而 Alex 也在很多事情上亲力亲为,或亲自监督。团队综合素质和执行力非常强。
为什么不看好
1. 企业管理风险
创始人与团队既是亮点也是风险。如团队部分所说,我们对创始人和团队进行 后发现大家对 Alex 的评价十分极端且割裂,欣赏 Alex 的人觉得他是全能天才少年,不欣赏 Alex 的人又觉得 Alex 在公司管理方面存在非常大的问题。这可能是我们最近两年的研究中遇到的第一个 结果如此割裂的项目。
企业管理和企业文化方面,Scale 给年轻人足够大的发展机会和发展空间、足够快速和清晰的上升的机会、足够多的激励,但同时在处理老员工的关系上存在很多问题,因此这其中存在较大的冲突与矛盾。此外,Scale 高强度的工作、激进的管理方式,也导致了严重的人才流失,或是让很多人才在选择公司的时候就望而却步。我们认为企业管理与企业文化是 Scale 最大的 risk。
2. 需求和增长风险
数据标注需求受具体行业周期影响大,当每波 AI 趋势爆发的时候,就会有一次极其陡峭的增长,但当行业发展趋于稳定或趋于成熟后,增长曲线将开始平缓,直到下一波大趋势的爆发,需求和增长波动较大。并且 Scale 多为项目制,项目的数量、周期、稳定程度和订单金额都有很大的不确定性,较难预测。数据标注业务本身重人力,靠堆人完成标注工作,属于施工队生意,短期内人效较难提升,也难有持续复利。
另一方面,Scale 团队一直在努力寻找第二增长曲线,在 MLOps、LLM tool、 AI 等方面均有涉及,但目前从结果看差强人意,依然没有找到第二条稳定的增长曲线。如果长期依靠数据标注业务,天花板将受限。如果想象空间和稳定的增长不存在,那么公司将来到二级市场将承担低估值的风险。
3. 供给端风险
Scale 此前布局供给端的国家和地区近年人力成本上涨速度快,最典型的是菲律宾等东南亚地区,菲律宾劳动力价格上涨后,Scale 也很少再到菲律宾招人。供给端成本上涨,Scale 的毛利空间受挤压,而毛利是否稳定上升也是公司上市后投资者最看重的标准之一,如果毛利下降是非常不利的信号。除此之外,供给端招聘流程的规范性和稳定性也是我们关心的问题。
最后补充一个观点,我们认为 Scale 是观察 AI 行业机会的绝佳的生态位,一旦行业有新动向 Scale 都能很快捕捉到信号,并快速推出相应的数据标注产品,且公开可见。Scale 的产品创新值得持续关注。
本文来自微信公众号“海外独角兽”(ID:),作者:拾象,36氪经授权发布。