凭借一小段录音而完美复制整个人的口音,在今年之前肯定让人感觉这是科幻电影的情节,但在今年爆火的生成性人工智能GPT的背景下,使得无人不敢不信服。
今年,多家机构都研发了自己的AI。微软最近也推出了一个新的 AI,据说它只需要你三秒钟的音频样本即可模仿出你的口音。
AI语音让语音识别不再安全
有一位撰稿人约瑟夫·考克斯分享了他使用AI骗过银行安全系统的故事。他只用了AI生成了一段自己的口音,就轻易骗过了银行的验证系统。
他是这样操作的。首先打电话给银行的服务热线,然后他点击附近笔记本电脑上的一份文件,播放一段声音,“检查我的余额”。实际上这并不是他的声音,而是使用 AI 生成的声音。而考克斯没想到的是,居然奏效了——他的声音通过了识别银行的检查。他在成功使用人工智能生成的声音后进入了自己的银行账户,可以正常访问账户信息,包括余额和最近的交易和转账清单。
这个实验打破了这样一个想法,即基于语音的生物识别安全并不能妥善保护用户隐私。因此一些专家现在呼吁银行完全放弃语音认证,因为滥用人工智能语音可能会导致欺诈和账户黑客攻击。
AI语音克隆有多简单,罪成本就有多低
随着语音克隆技术的发展,目前使用AI克隆语音已经越来越简单,在此基础上微软表示,只需提供三秒钟的音频片段,其新的文本转语音 AI 就能克隆你的口音,这就是——VALL-E。
这个系统背后的底层技术,微软在一篇新论文中称之为“神经编解码器语言模型”。这个技术复杂,但实际上,这套系统的使用似乎非常简单:只需插入音频样本,然后再插入一些文本,接着就能得到真实的语音。
与其有异曲同工之妙的还有大名鼎鼎的,这款AI软件的深度学习算法实现了与人类高度相似的语调和语音转变,还能根据情况调整讲话语调。有了这个最前沿、最通用的人工智能语音工具,用户可以用简单的文本制作任何声音和风格的高质量音频内容。
所以你会发现最近大量出现各种用AI语音克隆来实现“各种人物玩电子游戏”“让任何人物唱任何歌曲”的娱乐视频。但如果只是在娱乐层面上那尚且无可厚非,但是偏偏就有人动了歪脑筋。
曾出演《这个杀手不太冷》的女演员娜塔莉·波特曼接受电视节目采访的视频遭到恶意篡改。
本来娜塔莉·波特曼说的是“跟她一起工作我感到很幸运”,但经过AI的修改后变成了“我是个真正的皮条客”。甚至连同视频里人物的嘴型也一同改了过来!
当听到“亲人”在电话那头呼救时,人们的第一反应是“恐惧”——他们没想到这则语音居然是假的。今年年初,73岁的卡德和她75岁的丈夫格雷斯接到一通电话,电话那头的“孙子”说他出车祸撞到了人现在在监狱里,需要保释金。
他们立马前往银行取出了3000加元(折合人民币15286元),还好这对老人幸运地遇到了一个对最新骗局有了解的银行经理。得知声音是伪造的,还有人也受骗,他们才意识到自己上当了。“我们陷进去了,我们坚信自己是在和布兰登说话。”
你的声音可以被记录下来。你的脸可以被拍照。您的指纹可以在您丧失行为能力时使用。当一切记录都可以被AI克隆复制的时候,不应该想想AI的发展是否已误入歧途?索菲亚认为,AI的开发和使用必须以人为本,如果人工智能公司制造的产品造成伤害,法院应该追究这些公司的责任。