chatgpt能用于做数据整合吗 Scale AI:大模型还需要数据标注吗?

默认分类1年前 (2023)发布 admin
4,030 0
ChatGPT国内版

主要客户名单如下:

商业模式方面,Scale 官网针对每款产品给出了标准化定价,定价模式为 -base 的模式。如 Scale lmage 起价为每张图片 2 美分,每条标注 6 美分;Scale Video 起价为每帧视频 13 美分,每条标注 3 美分;Scale Text 起价为每项任务 5 美分,每条标注 3 美分;Scale Al 起价为每项任务 2 美分,每条标注 7 美分。除此之外,还有针对 的收费方式,即根据具体的企业级项目的数据量及服务进行收费。

由于 Scale 的大部分客户都为 客户,因此实际上大部分收入均为项目制收入,客单价几十万美金至几千万美金不等。Scale 2022 年收入预计为 2.9 亿美元,毛利约为 70%。公司 2021 年 4 月完成 $325M 的 E 轮融资,投资者包括 、、Tiger 等,估值达$7.3B。

03.团队

Scale AI 于 2016 年诞生于 Y 创业项目,创始人为 Wang 和 Lucy Guo(2018 年 Lucy 离开 Scale AI,保留 6% 股权),两位创始人技术背景深厚。

Wang 出生于 1997 年,2014 年加入 Quora,并在 Quora 上结识 Lucy Guo,高中就收到很多硅谷科技公司的 offer,后在麻省理工学院攻读机器学习专业,选修的全是研究生级别的计算机课程,一年后毅然从麻省理工辍学。2016 年, Wang 和 Lucy Guo 在 YC 期间创办 Scale。

Wang 在 2011 年美国数学人才搜索 () 中获得铜牌,在 2012 年获得金牌;2013 年在美国数学奥林匹克竞赛中进入全国前 30 名,同时在 Who Wants to Be a 比赛中获得第三名;2014 年参加了美国国家物理奥林匹克竞赛 () 并进入半决赛,在 2018 年登上了“30 under 30”的榜单。

Wang 的履历非常亮眼,但大家对他的评价褒贬不一。他非常聪明、自信,能力强,善于维护外部关系,花费大量时间与硅谷关键人物建立关系。他也十分擅长 和 ,塑造很好的个人形象和企业形象,有观点认为 Scale 与其他竞对的差异性主要来自于 Alex 的宣传炒作,为公司带来了大量订单。但或许是因为年纪太小的缘故,Alex 管理公司的经验相对欠缺,公司内部管理较为糟糕,很多人才流失或不愿加入 Scale,企业内部也存在各类矛盾。我们在几位离职高管访谈中听到了非常负面的评价,但也在不少员工访谈中感受到部分员工对 Alex 发自内心的欣赏。

团队整体方面,Scale 整体执行力非常强,工作节奏和企业文化非常激进,偏好招顶级院校的应届毕业生,聪明、勤奋、执行力强、肯加班,Scale 的“卷”在硅谷非常有名。

04.竞争

Scale 的竞争对手包括:公司内部自建的数据标注团队;谷歌、微软和亚马逊等科技大厂的数据标注服务;数据标注创业公司。

类型一:公司内部自建的数据标注团队

由于某些数据比较敏感,有的公司会选择内部自建数据标注团队,作为 Scale 等外包方案的补充。例如 使用内部数据标注产品来标记隐私数据,并用于公司内部的机器学习模型,但是对于不敏感的数据, 通常会外包给第三方供应商进行标注。

原因有三:

•第三方供应商做数据标注可以比 内部自建团队更便宜;

•第三方供应商具有灵活性,可以根据 的需求灵活调整;

•数据标注并不是 的重点业务,第三方供应商的工具可以更准确高效地完成标注。

类型二:谷歌、微软和亚马逊等科技大厂

对于 Scale 而言,这些科技巨头既是客户,也是竞争对手。谷歌、亚马逊、微软等科技大厂比其他任何供应商都具有优势,因为规模效应的存在以及头部公司拥有广泛的产品集合。例如,Scale 在 AWS 上处理和标注数据,如果客户想把 Scale 标注的数据储存在 S3 中,需要给 Scale 开通访问权限,再由 Scale 将标注好的数据放入客户的 S3 存储空间中,这一系列操作会造成额外的成本。但如果客户数据本来就存储在谷歌、亚马逊和微软的云平台上,并使用他们的数据标注产品和服务,则无需进行访问授权、移动数据等步骤。

此外,微软、亚马逊、谷歌等科技大厂都希望客户能够在一个平台解决所有问题、采购他们的所有产品和服务,因此会在一揽子产品中,针对某个单一产品给一些折扣,甚至直接提供免费的工具,这会对 Scale 造成竞争压力。但微软等科技大厂大多只提供软件和工具,不提供人力服务,导致客户必须自己承担人力工作。而 Scale 提供人工标注数据以及其他的人力服务,在与科技大厂竞争中也具备一定的独特优势。

类型三:数据标注创业公司

如 、、、、V7、Appen 等。

提供了大量模板来让用户创建标注任务,也提供了托管服务。 与 、 和 DAS 都有很好的集成。 和 Scale 都是数据标注领域较大的供应商,有专家认为 未来不会在与 Scale 完全相同的赛道中,但两者都会有不错的增长。相比 Scale, 的优势在于更专注于文本和 NLP,以及成本较低,所以用户如果只是处理文本数据,一般会选择 而不是 Scale。 的劣势在于视频、图像、地图等处理能力非常有限。

chatgpt能用于做数据整合吗 Scale AI:大模型还需要数据标注吗?

是数据标注行业重要的供应商之一。功能丰富,允许用户以 等格式提取不同的标签,使用 SQL 对图像进行大量搜索,并将 SQL 与数据库合并。相比 Scale, 的优势在于医疗行业和工作流程。在医疗方面, 符合 HIPAA 标准,而 Scale 并不符合。 在创建工作流方面能力更强,比如提供指令,在此方面,Scale 正在追赶,但并没有达到 的水平。但整体来看, 的劣势在于标注质量不及 Scale。

的商业模式与 Scale 略有不同, 是给用户提供平台,用户可以选择自己进行数据标注或使用其他服务,但客户需要采用 平台作为内部数据标记工具。 通过美国国防部安全审查,也与各种组织展开合作,例如, 与 GCP 是合作伙伴关系,正在推动 GCP 云和谷歌云。

05.当前结论与判断为什么看好

1. 数据标注外包需求确定

数据标注外包需求明显,给创业公司很大的发挥空间。

一方面,从客户角度考虑,数据标注对于 AI 公司的员工而言属于脏活累活,会占用他们大量的时间,分散他们在算法等核心环节上的注意力,从主观角度看他们不愿意把时间花在标注上。

另一方面,从 ROI 角度考虑,大部分的数据标注工作对标注员的要求并不高,即美国的工人可以完成的工作肯尼亚的工人也可以完成,且质量差别不会很大。因此,如果不是特别隐私的数据、或不需要类似 RLHF 场景的语义理解等其他能力,通过第三方交由低成本国家和地区的劳动力来完成标注工作 ROI 是更高的。因此,数据标注外包的需求十分明显,创业公司长期有机会。

2. 数据标注赛道的头部玩家,头部效应、品牌效应强

Scale 是数据标注赛道的绝对的头部玩家,如果我们认为人工标注和“自动化+人工”的标注方式在未来 5-10 年内会长期存在,那么目前来看 Scale 会一直保持领先。从最真实的客户和订单来看,美国的 客户大多只认可 Scale 作为他们的第三方数据标注服务商,Scale 的客户可以说是美国 AI 各细分赛道的皇冠上的明珠,拥有最好的客户 base。

Scale 的销售团队在 pitch 客户时,所遇到的竞争对手几乎只有“大厂内部自建的团队”这一个解决方案,几乎没有遇到其他创业公司。只有在 SMB 市场或面向非头部企业的销售中会遇到其他创业公司。头部效应和品牌效应非常明显。关于品牌效应还可以补充一个观点,有客户说到这样一句话:“Scale 和其他数据标注公司就像 和安卓的关系。”Scale 品牌效应的形成也离不开 Alex 本人及团队极强的 PR 和 能力。

3. 规模效应已显现

数据标注赛道有规模效应。客户对数据标注的关注点主要在“质量”和“效率”两个方面,由于数据标注不是高技术含量的工作,因此经验对质量和效率的提升就起到关键作用。这里的经验又包括工人标注数据的经验,以及 Scale 对整套流程和体系的管理经验。经验一定程度上也与规模和数量有很大联系,规模越大,标注的数据量越多,经验就越成熟、越丰富,标注数据的质量和效率就越高。

作为赛道的头部玩家,以及与 客户合作,Scale 的订单量及数据量与其他竞对相比要大不少,再加上 Scale 在每波趋势刚刚兴起的时候,都能快速进入新兴领域,更早地获得“经验”,后续企业竞对便很难追上。

另一方面,Scale 将人工标注的经验沉淀为自动化的解决方案,在行业发展早期采用人工标注的方式,当行业成熟时已经能够训练出适配特定领域数据的自动化标注模型,变成“自动化+人工”的解决方案,大大提升效率。订单量和数据量足够大也能够更快速和高效地优化标注模型。因此,Scale 的规模效应非常明显。

4. 创始人与团队综合实力和执行力强

关于 Alex 在团队部分也有所介绍,一位非常聪明、激进、好胜心强的年轻人,且Alex 不仅在技术方面有很强的天赋,在商业方面也有很强的能力,比如运营、品牌、营销、销售、社交能力等等,综合实力强劲。Scale 团队综合能力也非常优秀,尤其是运营能力,对数据标注整套流程和体系的管理。Scale 的流程与管理体系、经验管理效果和效率都明显优于其他竞对企业,包括如何管理数据工人、如何给他们分工、如何进行激励或惩罚、如何检查质量、如何将数据交到客户手中、如何服务客户、又如何根据客户反馈重新标注数据提升标注质量等等,整个链路非常复杂,Scale 的高材生们能够把整套流程 好,每一个环节都极其高效、流畅、准确。而 Alex 也在很多事情上亲力亲为,或亲自监督。团队综合素质和执行力非常强。

为什么不看好

1. 企业管理风险

创始人与团队既是亮点也是风险。如团队部分所说,我们对创始人和团队进行 后发现大家对 Alex 的评价十分极端且割裂,欣赏 Alex 的人觉得他是全能天才少年,不欣赏 Alex 的人又觉得 Alex 在公司管理方面存在非常大的问题。这可能是我们最近两年的研究中遇到的第一个 结果如此割裂的项目。

企业管理和企业文化方面,Scale 给年轻人足够大的发展机会和发展空间、足够快速和清晰的上升的机会、足够多的激励,但同时在处理老员工的关系上存在很多问题,因此这其中存在较大的冲突与矛盾。此外,Scale 高强度的工作、激进的管理方式,也导致了严重的人才流失,或是让很多人才在选择公司的时候就望而却步。我们认为企业管理与企业文化是 Scale 最大的 risk。

2. 需求和增长风险

数据标注需求受具体行业周期影响大,当每波 AI 趋势爆发的时候,就会有一次极其陡峭的增长,但当行业发展趋于稳定或趋于成熟后,增长曲线将开始平缓,直到下一波大趋势的爆发,需求和增长波动较大。并且 Scale 多为项目制,项目的数量、周期、稳定程度和订单金额都有很大的不确定性,较难预测。数据标注业务本身重人力,靠堆人完成标注工作,属于施工队生意,短期内人效较难提升,也难有持续复利。

另一方面,Scale 团队一直在努力寻找第二增长曲线,在 MLOps、LLM tool、 AI 等方面均有涉及,但目前从结果看差强人意,依然没有找到第二条稳定的增长曲线。如果长期依靠数据标注业务,天花板将受限。如果想象空间和稳定的增长不存在,那么公司将来到二级市场将承担低估值的风险。

3. 供给端风险

Scale 此前布局供给端的国家和地区近年人力成本上涨速度快,最典型的是菲律宾等东南亚地区,菲律宾劳动力价格上涨后,Scale 也很少再到菲律宾招人。供给端成本上涨,Scale 的毛利空间受挤压,而毛利是否稳定上升也是公司上市后投资者最看重的标准之一,如果毛利下降是非常不利的信号。除此之外,供给端招聘流程的规范性和稳定性也是我们关心的问题。

最后补充一个观点,我们认为 Scale 是观察 AI 行业机会的绝佳的生态位,一旦行业有新动向 Scale 都能很快捕捉到信号,并快速推出相应的数据标注产品,且公开可见。Scale 的产品创新值得持续关注。

本文来自微信公众号“海外独角兽”(ID:),作者:拾象,36氪经授权发布。

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...