ai声音模拟软件 lyrebird 一分钟模仿你的声音

默认分类1年前 (2023)发布 admin

61 0 0

一分钟模仿你的声音

假如有一天，你发现机器人发出跟你完全一样的声音，你是该欢喜，还是惊慌？这并不是危言耸听，谷歌的一家实验室已经开发出一项新技术，能够在1分钟模仿任何声音，把声音合成技术提高到一个崭新的高度，但同时，技术的双刃剑效应也应该引起人们的警惕。

琴鸟

很巧的是，这家公司的名字也是一种叫做琴鸟的鸟类名字。琴鸟的神奇之处在于，它不仅能模仿多种其他鸟类的声音，它还能模仿大自然不存在的声音，比如说汽车鸣笛声、伐木用的电锯声、相机的快门声。

声音合成，只需1分钟

琴鸟的模仿者，公司在众多声音合成公司中脱颖而出。它宣称，只需要1分钟的声音样本，就可以模仿任何人说话。直接拖拽到编辑区域直接展示；

之所以能产生如此高还原度的合成声音，背后的技术正是神经网络（）和机器学习（）。神经网络模拟电信号在人脑神经元之间的传递过程，对输入数据进行处理。它利用分层的神经元，从大量样本数据中总结出共同特征。目前，神经网络在图片识别、字幕生成等方面受到了广泛应用。

在这里，研究人员首先用很多不同的声音训练神经网络，把声音的音节数据还原成声音。公司的创始人亚历山大·布雷比松（ de Bré）说：“不同的声音中包含了很多信息。”神经网络能够从声音样本中抓取关键特征，如音色、音调、音节、停顿等等，而这些关键特征足够定义一个人的声音，这跟人们根据声音判断说话者是一个道理。布雷比松把这些关键特征比作声音的DNA，“在学习了很多不同讲话者的声音后，学习一个全新的陌生声音就会快很多，这也是我们为什么不用那么多数据的原因。更多的数据肯定也是有帮助的，不过一分钟就足够捕捉声音的DNA中的大部分信息了。”

半秒合成1千句话

除了表现出出色的模仿效果，公司的声音合成技术还能在快速合成声音。公司官网上宣称，借助系统的GPU群，它可以在半秒钟内合成1千句话。它的合成原理简单来说就是，记录某人1分钟的声音，把声音中的DNA压缩成特殊的钥匙，随后用这个钥匙就可以合成任何与说话者相似的声音。

然而这项技术的漏洞也是显而易见，不在于技术本身，而在于使用它的人。如果这项技术被图谋不轨的人利用，社会上的误导、迷惑、欺骗行为可能会更加猖獗。小到钱财，大到人身安全、社会集体利益可能都会受到威胁，无意间的犯罪或者被侵犯都是非常可怕的事情。

关于技术的道德问题，在其官网也专门给出了解释，他们声明开发的技术实在警醒人类在未来（甚至现在）声音篡改模仿都是可能的，尽管现在法庭上还将录音作为一项重要的证据，他们不认为这是很妥当的，因为谁都可能伪造这种证据。而通过将这项技术发布给全世界，他们希望确保技术的安全性，希望人人都能接触到这个信息：在不久的将来声音也可以被破解。