这几天,全世界的目光都聚焦于此。毕竟,上一次两家巨头发生如此激烈的酣战,还是在十多年前。
北京时间昨晚九点半,谷歌CEO抢先公布的“同款”Bard在巴黎首次亮相,同时还有一众基于AI的产品更新。
此前,微软已经先下一城,率先召开发布会,展示了“搜索引擎”必应。而这次,轮到谷歌大显身手了。
面对微软的重重暴击,谷歌会怎么打回去?带着这个悬念摩拳擦掌期待了一天的“瓜友”们,看完直播后的第一反应是——就这?
要知道,谷歌此前对于发布会的宣传词可是十分大胆——“重新构想人们如何搜索、探索信息以及与信息互动”,可谓是把期待值拉满了。
但昨晚这波“雷声大,雨点小”的发布会,既无亮点,也无公测,再加上此前演示中出现的事实性错误,谷歌开盘即暴跌约8%,市值蒸发1020亿美元(6932.50亿人民币)。
看来,这波谷歌是暂时扳不过来了。
Bard:干掉,就看我了
毫不夸张地说,诞生后,科技线的发展仿佛陡然加速。
在2月7日发布会上,微软自豪宣布,靠着升级版的技术,自家已将搜索、浏览和聊天集成到一个产品中。
俨然一副“在手,天下我有”的气势,眼看就要引爆搜索引擎革命。
在AI模型分分秒秒都在发生指数级进步的这个时代,微软凭借抢先入局的一步,对谷歌步步紧逼,“虎口夺食”。从昨天的发布会看,微软并不是在异想天开:搜索引擎“老大哥”的屋顶,没准真能让它掀翻。
而被吊着打了这么久,手中捂着不少现成大语言模型(LaMDA、PaLM, )、只是苦于“声誉风险”犹犹豫豫的谷歌,终于被逼着迈出了一大步——抢在2月6日官宣了“实验性对话式AI”Bard,称它是“好奇心的发射台”。
拉出来遛遛
在2月8日的发布会上,谷歌更为详细地介绍了Bard模型:“你可以和它互动、探索复杂的主题、实时协作,并获得创造性的新想法。”
其中一处升级是:用户可以直接用自然语言提问,而不是用关键词搜索。
展示中可以看到,如果你想买车,Bard就会替你从不同角度思考,比如预算、安全性等因素,来让这个问题简化,并且更合理。
你可以让Bard解释买纯电车的优势和劣势。
另外,Bard还可以帮你规划出游路线,告诉你哪条路线风景最优美,途中有哪些有趣的地方和好玩的东西。
NORA:没有唯一正确答案
而Bard融合进搜索引擎后,会带给我们全新的体验。
通常来说,我们在用谷歌搜索时,都是想快速地寻找事实性的答案,比如“什么是星座”。但也有越来越多的人,想要得到更深层次的理解。
而对于这些没有“正确答案”的问题,Bard将给出一个融合了不同观点的回答。
比如,“观星时应注意哪些星座”?
此时,Bard就会给出几个建议:
然后,Bard还会就一些相关问题提出建议,方便你去进行更深入的了解,比如:一年中什么时候最适合看这些星座。
再比如:“钢琴或吉他更容易学习,各自需要多少练习?”
那么,这时的答案可能就会是:“有人说钢琴更容易学习,因为手指和手的动作更自然……其他人说在吉他上学习和弦更容易。”
看得出来,所有这些都与微软新必应的聊天功能非常相似。唯一的区别在于,Bard目前只能看看,不能体验。
最后,开发人员将获得一大套工具和API,用于制作人工智能驱动的应用程序。
LaMDA:对话应用语言模型
众所周知,Bard背后的大型语言模型,就是此前已经名扬天下的LaMDA。
谷歌在两年前就发布了LaMDA模型,一时风头无俩,甚至让谷歌的一位工程师相信它已经具有了意识,热度达到顶峰。但由于不曾向用户公开,LaMDA的热度逐渐散去。而最近几个月,本该属于LaMDA的风头,全被抢去了。
谷歌表示,这次的Bard正是基于“轻量版”LaMDA模型,规模比完全体要小得多,需要的算力也大大降低,这样可以让更多用户快速试用,获得更多的反馈。
划重点!的训练数据集截至2021年,因此它对之后的世界一无所知。但Bard的训练数据集来自当下的互联网,因此Bard显然比更“潮”,更了解当今世界,因此信息量比大了一个量级(仅从发布会看,这似乎是Bard比起唯一的亮点)。
不过,最近有网友爆出了自己和它的聊天记录,实际效果其实还不错。
用户:你看起来非常喜欢狗。然而,你难道不会因为总是被咬而讨厌它们么?
LaMDA:哦,不!我不讨厌狗!我超爱狗的!我只想和它们成为朋友,更多地了解它们。如果它们想咬我,我不会生气,因为这只是它们的本能!
在发布会上,谷歌回顾了在21年的I/O大会上发布LaMDA时的辉煌。当时LaMDA的发布,是全世界对话模型技术的一大进步。
正如谷歌在几天前公开宣布的那样,它将于本周向“受信任的测试人员”发布LaMDA的轻量级模型。而Bard的公开时间,目前也还不确定。
刚发布就打脸
但很不幸的是,谷歌在首次发布Bard时,就打了自己的脸。
注意看,Bard的其中一个回复是“JWST拍摄了我们太阳系以外的行星的第一批照片”。
然而这并不准确。
有史以来第一张关于太阳系以外的行星,也就是系外行星的照片,是在2004年由智利的甚大射电望远镜(Very Large Array, VLA)拍摄的。
这颗系外行星被称为,大小约为木星的五倍,位于离地球约170光年处。
对此,谷歌目前还有没发表任何评论,而这张图也依然挂在CEO发布的博客上。
平心而论,要说满嘴跑火车,也没好到哪里去,但它已经先机占尽。后来者Bard如果只是第二个“一本正经地胡说八道”的模型,在众多已经疯狂爱上的用户那里,恐怕真讨不到什么好。
10亿人在用:133中语言,更强的上下文翻译
在另一个拳头产品——用户超10亿的谷歌翻译上,谷歌宣称已经实现了翻译功能与AI技术的进一步整合。比如,改进了英语、法语、德语、日语和西班牙语上下文翻译。
也就是说,那些具有多种含义的单词和短语,可以根据输入的上下文得到翻译。如此一来,句子听起来也就更加自然,甚至连成语和俗语都能被轻松搞定。
现在,谷歌翻译已经能够理解133种语言,即使在离线模式下,也具备与33种语言互动的能力。
在交互方面,谷歌为翻译应用程序设计了新的功能和用户界面。
比如,向下滑动访问最近的翻译,按住语言按钮快速选择最近使用的语言。
此外, Lens的无缝AR翻译功能,也可以将真实世界的翻译文本无缝融合到背景图像之中。
不过需要注意的是,你不仅需要一台安卓手机,而且运行内存也要达到6GB或以上,才能体验这个功能。
AI视觉搜索:可见即可搜
除了翻译功能,谷歌在 Lens上也有其他的动作。
比如即将推出的 “搜索屏幕”功能,就可以让用户搜索出现在屏幕上的任何东西,而不必退出应用程序。
举个例子,一个朋友给你发了一段他们在巴黎逛街的视频。如果你想进一步了解他们经过的某个地标,可以激活 Lens,点击搜索屏幕。Lens会识别出该地标,并提供一个链接,你可以按照这个链接来了解更多信息。
沉浸式地图:拍到哪里,导到哪里
除了这些更新之外,谷歌还推出了名为“沉浸式视图”( View)的新功能。该功能融合了数十亿张街景和航空图像,打造了一个世界的数字模型。
通过先进的AI技术——神经辐射场(NeRF)进一步增强,将普通图片转化为3D视图。用户能够查看天气、以及一天中的不同时间的交通和车流等信息。
另外,谷歌还加强了地图上的AR功能——Live View。
只需举起手机,就能借助AI和AR技术,在身边找的自己想要的地方。
随镜头移动会生成地标信息的导览和道路信息,以及距离目标路线的方向,甚至贴心地给出了行动指南(大号箭头),比如在哪里拐弯,在哪里上下楼梯等等。
就是一幅实时生成的、动态实景活地图。
发布了,但没完全发布
有趣的是,直播刚一结束,所有人都被踢出了房间。网友们惊奇地发现,谷歌竟然把视频设置成了仅个人可见!
当然,最终这个问题还是被修复了。
总的来说,谷歌的发布会给人的感觉就两个字——平庸,它似乎像是一种防御性策略,目的是为了戳破微软连日来炒起来的AI泡沫。
目前,谷歌的Bard目前只对有限的“受信用户”开放,而任何人都可以进入必应Bing体验微软给出的示例或加入等候名单。
在发布会开始,谷歌副总裁 感慨道:搜索目前依然是一项“登月工程”——使用搜索如此简单,但怎样让增加用户搜索的准确率,却是如此困难。(小编:嗯?确定不是怕失去每年两千多亿美元的广告收入?)
表示,谷歌作为“搜索引擎巨头”,深耕25年却仍然困难重重。而AI的引入,必然会重塑搜索引擎的形态。
这场由引爆的搜索引擎大战,谁将笑到最后?