推出两个月后,百度终于要下场了。即便还在传言阶段,资本仍然直接给了一波13%的大涨。
在此之前,微软被曝或是第一个将引入搜索引擎的巨头,并且宣布增持,谷歌也通过「Red code」的方式拉响警报,围绕全面调整2023年在AI领域的工作。
姗姗来迟的百度,虽然官方三缄其口,但投资者们更倾向于相信这一消息,这表明投资者们认可百度研发的合理性,并且对百度版抱有期待。
而有关百度版的迷雾,正是本文尝试探讨的:百度做不做、怎么做以及为什么做?
做不做?
去年年底,李彦宏曾在内部直播中做过一个分享,认为AIGC(AI生成内容)和这些都是AI技术发展到一定地步后产生的新机会。但至于它会变成什么样的产品,又能满足什么样的需求,还有很多的不确定性。
不过话锋一转,李彦宏又坚定的表态:这个事情很难,但百度必须要做。
而百度必须要做的理由,来自这两个方面:
一方面,微软、谷歌已经动作在前,尤其是后者。1月初,谷歌的子公司就推出了用以抗衡的,并且还在加速布局生成式AI,包括文字生成AI模型、AI绘画模型、视频生成工具 Video,以及在1月27日发布的音乐AI模型;
另一方面,的确是搜索引擎的威胁。
摩根士丹利在去年12月的一份研报中直截了当的表示:语言模型可以继续获得用户,并从搜索查询中获得份额,并破坏谷歌作为互联网用户入口的地位。
一个不算好的消息是,上线5天就完成了100万用户的积累。而据监测,到1月份平均每天的独立访问者已超过1300万,甚至瑞士跨国投行瑞银集团(UBS)周三发布的一份研究报告显示,在今年1月份的月活跃用户数估计已达1亿,成为史上增长最快的消费者应用。
相比之下,达到1亿月活跃用户数,花了大约9个月的时间,花了两年半。
这意味着,搜索引擎迎来了自诞生起最强大的潜在敌人。
相比传统的搜索引擎根据用户提问,从而提供数千万个相关链接索引,的优势在于,直接提供自己搜索和信息综合的单一答案,让用户省去反复点击链接找寻答案的复杂度。
据The 报道,微软Bing引入后,这些AI支持的答案可能会以包含信息来源的完整句子的形式呈现,而不是引用可能解决用户提出的问题来源或者链接列表的精选片段。也就是说,能够轻易碾压搜索引擎的「首条满足率」。
但是,对于颠覆搜索引擎的说法并没有得到广泛认可。主要是在搜索领域的应用仍具有几大悬而未决的掣肘:
1)真实性无法保证。在学术、科研等严谨的应用场景中,提供的答案并不一定都正确。由于只提供纯文本,不引用实际网站,目前并没有办法从 的输出中分辨真伪。
2)信息的实时性难以保证。搜索引擎的索引可以实时更新,更为方便快捷,但对于大型语言模型而言,添加新的内容需要重新训练模型,耗时且成本昂贵。
比如,GPT-3就需要1500万美金和1750亿参数,由于没有可以适合该模型的单个硬件,因此必须将其分解并分布在多个处理器上,例如。设置和并行化这些处理器以训练和运行模型既是技术挑战,也是财务挑战。
3)商业模式问题。此前,根据 估计,拥有100万用户的每天就要花费10万美元,若应用于Bing后经历高频度的搜索查询,商业运营成本极高。
最新的消息是,发布了的试点订阅计划,订阅者以20美元/月的价格即可获得比免费版本更稳定、更快的服务,及尝试新功能和优化的优先权。
怎么做?
尽管百度对推出类产品的消息不做回应,但在多家媒体的详细爆料和资本的狂欢中,似乎已经是板上钉钉的事实。
爆料称,该项目在百度内部由搜索(MEG)和技术中台(TPG)团队牵头,呈现形式将会是生成式搜索,也就是将搜索和结合。
生成式搜索是百度2019年就发布的一项服务,其具体形式类似,比如「北京GDP和上海GDP谁高」的问题,百度会直接给出答案,相当于省去了用户分别搜索再自行计算的步骤。
今年1月初,百度搜索杰出架构师辜斯缪曾在一次小范围的媒体沟通会上透露,百度预计在3月会做一个比较大的升级,同时今年百度搜索在技术上最重要的工作就是要把整个检索系统变成检索+生成双模系统。
如今根据媒体的爆料信息,预计百度版大概率将会是这种形式。
生成式搜索可以看作是生成式AI的一个版本(就是生成式AI的一种),而后者被认为是搜索引擎的未来:不仅仅是索引网页与链接,而是为每一个查询生成相应的摘要、回答。
用生成式搜索来回应,似乎是中美两大搜索巨头不约而同的选择。这种看似战略防御做法的背后,也有搜索引擎无法回避的苦衷。
虽然组织信息的方式更加简练,能够帮助整合信息、梳理段落要点,但当前搜索引擎给出的链接往往更加全面,因此使用方面并不具备压倒性的替代优势。
并且,从本身来说,像百度、谷歌这样的大公司要为数亿甚至数十亿用户提供高可靠性的搜索服务,不能仅仅因为一个东西似乎会成为未来,因为人人都为之疯狂,就把一个不可信的、未经严格测试的新技术嵌入进来。
就像谷歌其实在2021年5月就展示了人工智能系统LaMDA,尝试用聊天机器人的技术来增强搜索引擎的使用体验。
但直到现在谷歌仍不愿向公众发布LaMDA。部分原因在于,LaMDA存在较高的误差,且容易对用户造成伤害,这也是类人工智能的通病。
而生成式AI对搜索引擎最大的威胁还不是来自技术不完善,而是对搜索引擎盈利模式的威胁。
一旦引入生成式AI搜索引擎,用户就会减少在链接间跳转、浏览的时间,也就减少了广告投放的空间,这会使搜索引擎的盈利模式发生根本性的变化。
以广告为主要收入的搜索引擎自然要谨慎。2022年前三季度,广告营收占谷歌总收入的80%。百度也同样如此,据其2022年Q3财报,广告占百度当季营收的57.4%。
换言之,即便是百度将嵌入到搜索,其服务范围也一定是谨慎的有选择性的,更多是类似「秦始皇和汉尼拔谁年纪大」这种封闭式问题。
为什么做?
在2019年拿了微软的10亿美金投资,代价是只能使用微软的云计算服务。当然这并非是微软的强盗逻辑,而是确有苦衷。
小公司根本承担不起数千亿数据的喂养以及大算力芯片的消耗,以 为例,它在4000台A100显卡集群上训练了一个月时间、学习了近59亿条图片数据才真正开发出来。
而通过Azure 服务,开发者可以直接在微软云上访问的大模型,并根据特定业务场景进行部署和微调,以较低的成本开发出AI应用。同时,支持也就成为微软试图扩大云计算市场份额的有效手段。
百度去年12月发布的「AI大底座」,从IaaS层到PaaS层,为企业模型开发的全生命周期提供完整解决方案。名称虽然不同,但内核同微软没什么区别。都是给开发者降本增效,同时借势提升自己的市场份额。
按照这个技术复利的进度和未来AI应用的浪潮,百度云是有机会再改一改排名的。
对于百度而言,的另一个价值在于推动AIGC发展。
相比PGC、UGC,AIGC(AI ,AI生产内容,例如GPT系列)具有效率和成本上的优势:
– AIGC效率更高:截止2021年3月,推出9个月后的GPT-3日均文本生成量45亿,而2021年阅文集团新增文字量仅360亿,仅相当于8天GPT-3的文字内容生成量;
– AIGC成本更低:目前定价最高的文字模型达芬奇(基于GPT-3)为每750词约0.02美元,2021年阅文集团内容成本为17.74亿元(每750词约37元),是调用的API完成相同文字量生产所需的成本(约672万元)的264倍。
理想状况下,如果阅文集团将2021年全年360亿的文字内容生产量交给GPT-3,耗时8天即可完成,节约成本99%+,毛利率空间几乎100%释放。
虽然目前只有文本形式,但也有望在相关产业落地,比如有海量文本创造需求的网文平台、新闻平台等,可以借助完成内容快速、低成本地扩增;教育及科研工具类平台也可以借助实现定制化、拟人化的教学和辅助,如智能问答、智能批阅、辅导资料智能撰写等。
尾声
推出的那一天,上有个叫josh的用户马上就说:“谷歌完蛋了。”马斯克也在几天后发推称,好的惊人,我们离强的可怕的AI不远了。
但对于大洋彼岸的我们而言,对搜索引擎有没有威胁暂且不论,重要的还是应该先有。所以当发布后,人们就在期待百度何时跟进。
所以不论百度版有没有新花样,只要发布就已经是一种胜利了。
全文完
参考资料
[1] 是否是AI的革命?国盛证券
[2] -真格基金分享,真格基金
[3] :又一个“人形机器人”主题,东吴证券
[4] 计算机行业专题报告::开启AI新纪元,财通证券
[5] 要和搜索引擎抢饭碗?科技云报道
[6] 微软vs谷歌:语言模型会不会压倒搜索引擎?36氪
[7] 微软的AI革命:一场深入业务底层的豪赌,虎嗅
[8] 百度将推出类似服务?财经十一人
[9] : What is it? Why it ? Is it a …and ,摩根士丹利
免责声明:本文基于已公开的资料信息或受访人提供的信息撰写,但解码及文章作者不保证该等信息资料的完整性、准确性。在任何情况下,本文中的信息或所表述的意见均不构成对任何人的投资建议。
解码
36kr优质内容创作者、年度优秀自媒体、驱动号年度十佳自媒体
如需合作、转载、加入读者群请联系ID:
账号文章可见虎嗅、36kr、钛媒体、界面、人人都是产品经理、创业邦、创事纪、澎湃新闻、投资界、、网易号、腾讯新闻等平台