近日,电视剧《狂飙》的爆火引发了观众对剧中情节的模仿热潮,而当剧中角色出现“说话和口型对不上”的情况时,更是有一众网友努力读唇语对口型,甚至开始尝试用人工智能进行唇语识别了。
人类都读不出的唇语,人工智能究竟是如何办到的?
“动动嘴皮子” AI就能知道你在说啥
“所谓AI读唇语,即人工智能唇语识别,其核心技术框架为视觉识别和自然语言处理。”北京理工大学计算机学院副教授闫怀志介绍道。
具体而言,就是运用机器视觉技术从图像中识别出说话人的人脸,提取此人连续说话时口型变化的特征,并将特征输入到唇语识别模型中,识别口型对应的发音音素。音素是最小的语音单位,例如汉语中的韵母“a”就是一个音素。AI可以依据不同的发音动作来分析音素。
然后再运用大数据,计算出可能性最大的自然语言语句。例如,“我是天才”还是“我是甜菜”,大数据会证明,前者的可能性更大。
“视觉识别和自然语言处理分别有着庞大的技术体系和不同的技术路线,但究其本质,都是通过大量的唇语数据来训练AI模型,力求文本输出的准确性。”闫怀志补充道。
AI读唇语发展到哪一步了?
► 人工智能 比唇语专家更懂唇语
在学唇语上,AI确实已经比普通人厉害不少了。谷歌旗下公司就与英国牛津大学合作,研发出了一款AI读唇语软件,通过让AI读唇语软件“收看”数千小时的电视节目来训练其唇语识别能力。有意思的是,在随机抽取200个视频片段的读唇语测试中,AI读唇语软件的准确率达到了46.8%,而经过专业训练的人类读唇语专家,准确率仅为12.4%。
目前在欧洲一些型号的战斗机中,就因为机舱内噪音巨大、飞行员之间无法沟通,已经应用上了EMG信号无声语音识别技术。
据外媒报道,还有一种新型的语音合成器可以跳过语音记录,而直接将说话者嘴部动作转换为语句。研究人员表示,该设备将能帮助声带麻痹患者发声,向脑机接口又迈进一步。描述该装置的研究发表在《PLOS计算生物学》期刊上。
国内也有类似的读唇语软件,搜狗推出过唇语识别人机交互技术,通过复杂端到端深度神经网络技术进行中文唇语序列建模,经过数千小时的真实唇语数据训练,搜狗“唇语识别” 系统在非特定人开放口语测试集上,达到了60%以上的准确率,在垂直场景命令集如车载、智能家居等场景下甚至已经达到90%的准确率。
目前,浙江大学教授宋明黎所在的课题组发布了国际上最大的普通话唇语标注数据集。“这个数据集是基于中央电视台的新闻联播来提取的,所以能够识别的必须是‘字正腔圆’的普通话。接下来,对于AI唇读的研究主要是让它更加适配于实际场景的数据。”宋明黎说。
不过,即使是最先进的系统,在克服唇动中的模糊性上也有一定困难,使得其性能无法超越基于音频的语音识别。为了追求更高效的系统,阿里巴巴、浙江大学和史蒂文斯理工学院的研究人员已经设计了一种方法,利用从语音识别器中提取的特征作为补充线索。在衡量准确性的两个唇语识别行业标杆基准测试上,以7.66% 和2.75%的字错误率优于已有技术。
电视剧《狂飙》中引发唇语猜测的片段
► 为何AI读唇语能够悄然兴起?
尽管存在种种难题,但仍有越来越多的AI企业开始涉足并计划深耕人工智能唇语识别赛道。目前来看,各大AI巨头的选择不尽相同,具体可分为唇语数据、唇语视频识别、唇语理解等。
人类费尽心力开发研究人工智能、提高唇语识别的准确率,除了可以搞懂“《狂飙》里的孟德海到底说了什么”外,还有很多更为广泛的用途:
比如应用于金融在线业务的生物识别、噪声环境下辅助语音识别、辅助听障人士交流、体育赛事暴力语言识别等多个领域,这些都是有着实际意义且颇为重要的应用场景。
据统计,我国听力残障人口超过2054万,但人工解读唇语容易受到视觉感受能力、语言理解能力等因素影响,在正确率方面差强人意,而利用AI技术来解读唇语则能很好地解决这一问题。
此外,从技术推动来说,由于AI算法、算力以及数据瓶颈被不断突破,使得AI技术在唇语识别领域取得较大成功成为现实。受到巨大潜在需求的牵引,在未来,AI读唇语有望实现快速推广与深度普及,产业前景十分可期。
► 应用场景不断丰富
从应用场景来看,AI读唇语在社会公益、公共安全、国家安全等领域都已开始崭露头角。例如,在公共安防安监领域,很多安监场景噪音较大或仅有视频信号,无法准确捕捉声音,人工智能唇语识别技术就能派上用场。
在身份识别领域,现在的人脸识别系统,可能会被带有人像的图片、视频蒙混过关;如果能将人脸识别和口令密码相结合,并采用唇语识别技术进行检测,安全性将会大为提高。
在公共安全领域,利用AI读唇语,可以在各类视频中分析案件当事人的唇语信息,辅助案件侦查工作;在智慧系统领域,可利用AI读唇语来实现“无声胜有声”——只依靠口型来控制智能设备,比如智能家电等。
从目前各大巨头的布局以及相关技术的发展趋势来看,未来,AI读唇语可在身份识别、国家安全、智慧系统等方面具有广阔的应用前景。
众多难题有待突破
► 技术发展仍有挑战
目前我国人工智能唇语识别技术尚处于起步阶段,若想利用人工智能准确地识别唇语,还有很长的路要走。
从语言本身来看,人类语言具有较高的复杂性,在人类话语所涉及的所有音标中,仅有30%左右是直接由人类嘴唇来控制的,70%是难以通过肉眼,甚至是机器视觉区分的齿音、舌音以及喉音。而且,不同人说话的语气、方言、连词、口音,乃至胡须遮盖等因素,都会导致嘴型的细微变化,而恰恰是这种细微变化,会严重影响人工智能对于唇语的识别和判断。
从技术层面来看,人工智能采集唇语的环境通常较为复杂,若想精准识别难度很高。以目前的人工智能技术而言,对于长句、复杂句式等的识别水平不尽如人意,更不用说还存在着多场景识别、多人像唇语识别等问题。
只有解决了上述问题,AI读唇语才能得到突破性提升,迈向成熟发展阶段。
此外,此前较为成功的AI读唇语系统大多仅限于英语模型,这是因为多数AI模型都是基于英语数据训练而得。不过,从技术框架上来说,不同语种的训练模型是基本一致的,或者说可以依赖于同一类技术手段来实现。
为了适应不同语种的唇语识别,也需要作一些适应性调整:一方面要选择对应语种的数据进行有针对性的训练;另一方面,还需要对AI模型进行调整,比如纳入时间屏蔽、优化语言模型以及改进超参数等。
电影《2001太空漫游》中会读唇语,拒绝接受指令的“邪恶”超级计算机
► 亟须监管的技术双刃剑
当然,技术应用是把双刃剑。很多人担心,AI读唇语会使人们对话中的隐私内容遭到泄露,无论当事人是公开发言、窃窃私语或是自言自语,“张张嘴”就被别人窃取聊天内容,仔细想来确实可怕。
因此,北京理工大学计算机学院副教授闫怀志建议,应从隐私安全保护的角度,在管理层面加强相关法律法规的制定,严格规范和约束AI读唇语的应用场景、范围和目的,加大对技术恶意利用的监管和惩戒力度。此外,还要在技术层面加强AI读唇语系统的安全保护体系建设,以技术手段提高系统的识别精准度,避免技术滥用,切实保障用户对话的内容安全。