2023年整个科技界最火的无疑是以为代表的AI大模型,因此也使得蹭的热度俨然成为了诸多相关企业的必备技能。日前有消息显示,号称全球首款内置的智能音箱Vifa ,就将于8月17日全球首发。根据推出这款智能音箱的智度股份官方公众号的说法,这款产品内置了和百度文心一言双AI大模型,在智能化方面将拥有“巨大飞跃”。
比传统音箱具有更小的体积、更强便利性的同时,还内置了、文心一言,这真的可能吗?答案是可以做到,但实现方式可能与大家理解的完全不同。
在许多朋友的理解里,内置或许更接近于传统的端侧智能,也就是将AI大模型本地化部署在智能终端上。但截至目前,还没有哪一家厂商在真正意义上实现了这一点。
即使是华为方面在刚刚发布的 4上,也仅仅只是表示将AI大模型能力内置在系统底层。而且在大模型接入后,华为智慧助手“小艺”也只是在语音交互的基础上,扩展了文字、图片和文档等多种形式的输入,自然语言理解能力得到提升,还能根据指令连接多种服务和场景,比如自动提取图片文字、生成各类商业电子邮件内容或生成图像等。
此前,高通产品管理高级副总裁兼AI负责人Ziad 在接受媒体采访时,也给出了谨慎的回应,“本年度我们将能够支持参数达100亿的生成式AI模型在手机上运行,这意味着未来大多数的用例将能够完全依靠手机端就能够完成”。
但要知道的是,相比智能手机的SoC,智能音箱使用的芯片在算力上可以说是有着质的差距,目前即使智能手机都暂时还没能实现在端侧部署AI大模型,就更遑论智能音箱了。
事实上,这款Vifa 智能音箱实现用户使用的方式,极有可能与如今iOS/用户一样,是在设备里下载了一个的App而已,同样都是通过云端来部署。此时,大模型和计算资源都存储在的服务器上,用户通过与服务器的实时交互,输入的内容经服务器处理后再获得响应。
简单来说,以现阶段智能音箱的算力水平,是不可能支持拥有1750亿参数规模的,所以用联网的方式来获取的能力才更靠谱。
那么问题来了,消费者真的需要一个内置的音箱吗?其实最有可能的情况,是凭借内置的噱头或许会在最初引得一批用户尝鲜,但紧接着它的弊端就会让更多消费者对其敬谢不敏了。
如今毫无疑问的是,智能音箱的卖点是“智能”、而非“音质”,并且这一点诸如腾讯听听、苹果等一系列注重音质的产品,已经用惨烈的市场表现佐证了。随着家电产品的智能化浪潮,消费者确实需要一个通过语音操控的智能化工具来“总领全局”,所以智能音箱就很好的扮演了这个角色。诸如播放音乐、讲故事、查看天气、控制其他设备开关的工作,智能音箱就完成的很好。
然而智能音箱在经历了此前的高光时刻之后,直接就朝着谷底一去不回了,这是因为消费者发现智能音箱也只能做好放音乐、看视频、讲故事、查天气的工作。由于ASR(语音识别)、NLP自然语义处理、远场拾音等人工智能和声学技术进步的速度,没能赶不上用户的需要,导致了消费者认为智能音箱不智能。所以内置的Vifa 就在这一背景下诞生了,既然智能化程度不高,那就直接上当下最智能的来补全不就可以了。
但很可惜,或许并不太适合智能音箱。因为厂商想象中,内置的智能音箱就能实现更丰富的对话、情感陪护等工作,实际上是有门槛的,而且也是现阶段/GPT-4做不到的事情。
事实上,用好是有一定门槛的,这点相信是使用过AI大模型的用户的共识。其实它在某种意义上与几年前走红的3D打印非常类似的,尽管看上去很美好,但用起来会很快发现完全不是一回事。
借助3D打印,似乎用户需要什么就能打印什么,不需要用户具备相关专业技能也可以“心想事成”,但实际上这里需要创建3D模型,并且对3D模型进行修整、拆分、组合。也是如此,它需要有所谓的提示词(),用户使用也基本停留在对话上,并难以挖掘出更多的能力。简单来说,是一座宝藏,但是绝大多数人并不懂得如何去挖掘它。
遗憾的是,即便是对话,在AI伦理以及合规的约束下,目前的和半年前的版本已经不是一回事了。乃至微软为了系统的安全性、鲁棒性,以及合规,选择了负优化AI大模型,来提高系统的稳定性和可控性,、GPT-4、Bing Chat都已经被许多专业人士发现出现了性能大幅下降的情况。这也就意味着的输出变得更加可预测,实际上它也已经被部分用户吐槽回复缺乏新鲜感和创新性。
想要让重新变得聪明,通过精心设计的提示词让跳出划定的范围,是最为直接的方式。可大多数人并不具备构建高质量提示词的能力,所以很容易就会陷入用着用着就越来越无聊的情况。而智能音箱的消费者显然基本是未受过相关训练的,因此可以预见的是,大多数消费者在购买了内置的音箱后,会发现它与以往用过的智能音箱并没有太多差异。
因此一款有隐性使用门槛的消费类电子产品,高开低走再正常不过了。
本文来自微信公众号,作者:三易菌,36氪经授权发布。