鱼羊 发自 凹非寺
量子位 报道 | 公众号
如果技术不能让每个人无差别使用,不能帮助人去适应变化……
这是程序员的耻辱。
这就是阿里达摩院技术大牛、天猫精灵首席科学家、程序员聂再清,在被问及近期热议话题时的表态。
最近,一则讨论引发了两种认知的割裂。
智能手机给多数人的生活带来了种种便利,但也有少数人被“落下”——许多老人不会用、不善用智能手机,没有健康码,技术的快速铺开,反而给他们的生活造成了一定困扰。
于是问题来了:在这个科技日新月异的时代,如果有人跟不上技术迭代的节奏,怎么办?
有人言辞激烈:科技倒逼人类进步,跟不上发展就要被淘汰,这是时代在惩罚不主动学习的人。
也有人坚决反对:技术的发展,不应该让每个人能无差别使用吗?
而阿里达摩院的大神程序员聂再清,就是后者的坚定支持者。
作为前微软亚洲研究院首席研究员、如今的阿里天猫精灵首席科学家,聂再清当前正在不断推进的正是新一代人机交互方式——AI语音交互。
所以在他看来,让所有人无差别使用最新技术,技术应该帮助人去适应变化,是每一个程序员、工程师再正常不过的使命。
当然,体现到他带队的最新技术和产品应用中,聂再清也是这样做的。
技术应该让每个人能无差别使用
7月5日,天猫精灵刚好迈过三周年。
对于聂再清而言,过去半年,疫情改变了工作形态,但没有改变工作目标——一种新的语音模组正在加快冲刺。
每天清晨,他习惯在自家小区400米一圈的院子里,跑到汗水浸透全身,再回到家中,与各种家用设备改装的AI实验仪器为伴。
而这新一代语音模组的关键算法,正是要实现云端一体化后,让不同用户“无差别使用”。
所以在刚过去的618消费季中,虽然天猫精灵孵化的智能家居设备,出现了100个千万级销售爆款。
但让聂再清最开心的一则新闻,则是这样一则“社会新闻”——在杭州,一位孙女为自己奶奶打造了无障碍的家。
视频中,这位70多岁的老人通过智能音箱,语音操控家中的空调、窗帘、电视。
这也是对聂再清团队持续“无差别实验”,尤其是特殊疫情环境下坚持的回报。
新冠疫情发生后,聂再清和天猫精灵产品团队的“无差别实验”,险些面临停摆。
首先,天猫精灵自身对新算法的测试流程,过去有大量外包设备厂商和测试员完成,新冠疫情导致2月基本无法复工。
更困难的是,预计要在618成为新品的扫地机、跑步机、按摩仪、水果榨汁机、集成灶等等智能设备,正处在厂商与天猫精灵智能语音模组对接测试,即将量产的关键阶段。这些家电普遍运行声量偏大,对智能语音识别颇有挑战。
由于疫情影响,人们也在家居环境中更高频购买和使用这些产品。让技术的门槛持续降低,让先进科技能够覆盖到更多人群。
这是天猫精灵三周年的目标之一,也是聂再清整个职业生涯,希望以语音助手作为一个突破点去实现的“无差别”价值。
因为语音对话、眼神手势交流,无疑是更为自然的交互方式,这就在技术层面,降低了用户触达前沿科技的门槛,用更简单的方式满足人们的科技需求,让科技普惠到更多人的生活。
去年,聂再清曾用业余时间打造了一个“爆款”,阿里反骚扰电话AI**“二哈”。
而这半年以来,聂再清团队则投入精力,针对老人、儿童这样的弱势群体,尝试进一步扩宽智能语音助手的“基站”覆盖范围,降低使用门槛。
比如,天猫精灵上线的方言功能,让不会说普通话、普通话不标准的老人也能方便地和语音助手交互。甚至还能合成四川话语音,实现与老人的乡音交流。
一般来说,一个智能产品的推出,往往会选择先覆盖最主流、最具购买力的群体。但这一次,聂再清团队却是着重针对老人、儿童的功能进行了优化,背后的考量,与商业价值有关,却也与商业价值无关。
聂再清认为,智能音箱,应该是智能网时代的助手,其实是第三代的互联网。
他打了这样一个比方,在移动互联网时代,手机的通信依靠基站,哪个地方有基站覆盖,信号连上了,这个地方的人就能够享受到手机的服务。
而对于语音技术来说,能否发挥最大价值,最终也是要看覆盖多少人群。
解决覆盖人群的问题,就像是在建基站。最终,只有百分百的覆盖,才能说,智能语音真正成为了第三代互联网助手。
音素编码上的语义理解
单纯站在技术的角度,聂再清说,科研的出发点很简单,就是让用户在使用的过程中,感受到的是“人工智能”,而非“人工智障”。
核心需要解决的问题,就是如何让数字世界里天猫精灵这样的语音助手,“听懂”物理世界里用户的需求。
传统的做法,分为三个阶段:
首先,把语音信号接入,做语音识别,将语音转化成文本;
然后,对文本进行语义理解;
最后,用抽取出关键词,在知识库里做实体链接。
这样的方法,其实存在很多问题。比如,一旦语音识别阶段出现决策失误,在后续的流程中就没有办法纠正,就会影响到识别的精度。
另外,实体链接也是很大的挑战。因为实体的名字经常是“反语言模型”的。比如说陈奕迅的《圣诞结》,在正常的语言模型中,就很容易被识别成“圣诞节”。
那么,能不能不转成文字,直接根据语音做语义理解呢?
答案是,可以。聂再清介绍,语音语义一体化的关键,在于音素。
音素,是根据语音的自然属性划分出来的最小语音单位,基于人的发音动作来分析,一个动作构成一个音素。
聂再清解释,比如输入“”这个语音信号,通过声学模型,就可以计算出一个音素后验矩阵。在这个时候,模型并不需要马上判断“”到底是指音乐里的“梁祝”,还是建筑里的“梁柱”,而是可以在音素后验的基础上去做意图分类、语义分类。
这样,就避免了一步错步步错的情况。
也就是说,基于音素,语义理解、实体链接都可以放到一个统一的优化模型中进行优化。
这一成果发表在了 2020上。聂再清介绍,实验表明,该方法在公开数据集上超越了此前的SOTA模型,同时在天猫精灵上线解决了大概30%的语义实体链接错误。
这就真正让智能语音助手在“听懂”人类的道路上更进一步。
语音+眼神,让交互更自然
而聂再清思考的另一个问题,是如何让新一代语音助手跟人们之间的交互更自然。
交互方式越自然,学习成本就越低,使用的门槛就越低,越能服务到更多的人。
当带屏音箱越来越受到市场的认可,视觉技能点的点亮,就给智能语音助手带来了更多可能性。
比如,多模态唤醒。
比起每次都要喊“天猫精灵”这样的唤醒词,如果给智能音箱一个眼神,它就能知道你是在跟它对话,那这样的交互就更符合人们的习惯,更加自然直接。
聂再清介绍,这其中的难点在于,智能音箱需要判断一段语音到底是不是在跟它进行对话,如果反复出现误唤醒,那就太“人工智障”了。
于是,他们采用了视觉 + 声音 + 全双工自然对话三管齐下的方式,来对“唤醒”这个动作进行优化。
并且,这三个条件只要有两项满足,多模态唤醒就能够实现。也就是说,即使是在无屏音箱上,这项技术也能让对话更加自然。
就像这样:唤醒智能音箱,要求它打开空调后,无需再次唤醒,只要说“调到20度”,语音助手就能结合上下文,判断出这句指令是对它说的。
云端一体化,让每个人都享受同样智能
从实验室到落地终端,用户最终的体验又是如何保证的呢?
天猫精灵产品部资深专家孙尧介绍说,一方面,是针对特定用户的样本测试。
比如,老人可能存在语言能力退化、口音重的问题,就需要定向采集相关的语料和录音,来提升老年人语音识别的准确性。
另一方面,则是聂再清提到的关键词,云端一体化。
依靠云端的能力,就可以把硬件端的产品做到更便宜,让更多人用得起,但在智能体验上并不会有所损失。
这样的方式,也降低了AI能力接入硬件的门槛。
去年,天猫精灵就推出了AI语音模组,把实现智能功能的一些设备集成到一个板子上。这样,电器厂商只要在产品中留出标准接口,就能轻松把天猫精灵的AI能力接入到产品中。
就在疫情期间,天猫精灵工程师们还用这样的AI语音模组打造了一个有趣的“业余项目”——
给园区里的电梯接入语音助手。
他们把天猫精灵的智能模组抽出来,业余时间自己买电路板进行了一番DIY、离线算法优化,以便接入电梯。大概两周时间,这个方案就上线到了园区电梯里,喊一声“我要去XX楼”,电梯就能无接触式完成操作。
甚至还能更酷。
孙尧介绍了这样一个新的应用场景:小区接入天猫精灵后,高层住户只需在家中让语音助手叫一下电梯,语音助手就能帮你隔空“按”电梯。
这样换完鞋子出门时,电梯差不多也就到了。
科技的发展,当然会给人们的生活带来改变。但在这种变化之中,人们的习惯和技术本身也不应该是对立的。
聂再清表示:
我的观点是,科技发展的目标是让每个人都能得到帮助。
即使是在改变的过程中,技术也能够辅助人们适应变化,而不是跟人对立起来,造成所谓的“淘汰”。
做智能助手,遵循的就是这样的逻辑:用跟人一样打交道的模式,为更多人提供前沿科技带来的便利。
聂再清还打了个比方:
比如你需要招一个私人助手,Ta告诉你你必须要适应我的节奏,那你肯定就不招了。
千人千面的AI
从端到端的口语理解,到多模态的自然交互,聂再清也坦承,从技术的角度上,语音助手的进步空间还很大。
谈及语音交互的未来形态,聂再清描绘了这样一个场景:
身处北京的你有一个智能音箱,当你飞到杭州出差,在另一台设备上,智能助手依然能一眼就认出你,按照你的习惯调出所有需求。
届时,终端便只是一个载体,而你的定制语音助手,将如影随形。
何时能够实现?
聂再清笑答:5年可以有,3年也是可以期待的。
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。