ai声音克隆软件 AI助力语音克隆，人和自己“对话”的障碍在哪？

默认分类1年前 (2024)发布 admin

1,529 0 0

语音克隆技术是什么？又能做些什么？

如果有一天，你可以将你的声音通过人工智能技术“克隆”出来，而且你还能和“你”进行各种对话，你是否愿意尝试？

这个场景并不遥远，不久前，“”的谷歌表示，其最新版本的人工智能语音合成系统——合成出来的语音几乎和真人声音一模一样。它拥有两个深度神经网络，第一个能够将文本转化为频谱图，第二个则负责将频谱图生成相应的音频。

而麻省理工评论则认为百度的技术则更进一步，百度在最近发布的新论文中表示，该技术只要通过一个半小时的语音数据的学习，就能“克隆”出原对象的声音。虽然以前百度的“”也能够生成语音，但让生成出来的语音附带不同的语言特色正是语音生成的一大突破，而且它除了能“克隆”之外，还能对该声音的性别或口音进行更改，甚至还能赋予该克隆声音一些简单的情感。

语音克隆技术是什么？又能做些什么？

语音合成的技术有三种，但只有AI技术才能称为语音克隆

最早的语音合成技术通过预先录制好的字词、短句来实现的，把各个部分串成一行，以此产生完整的句子。生活中各种服务热线的自助语音系统就是用这种方式实现的，所以会经常存在卡顿，音色不一样等问题，语气也很冰冷。

第二种手段虽然能够使语音更加自然，但其中也需要大量的人工处理，首先是制作语音库，确定音色、风格、特性、角色等要求后，投入音库生产线，设计录音脚本、训练录音资源、进行效果优化，在输出的时候还要进行各类语言处理，包括文本规整、词的切分，然后是韵律处理，为其划出音段特征，如音高、音长和音强等等，使合成的语音给人的感觉更加自然些。

但这类合成系统因为进行韵律预测处理方面的工作量巨大、所以也存在表现能力不足等问题，如合成语音对不同情感的表达会不够恰当，使得合成语音听起来缺乏人情味。而语音合成的技术发展不仅要让说话的声音达到真人水准，也应当在情感表达方面有所突破，使语音交互带有情感，达到更好的交流体验。

ai声音克隆软件 AI助力语音克隆，人和自己“对话”的障碍在哪？

最近爆出的百度技术，则是通过深度学习技术实现“语音克隆”的，通过真实语音的训练，能在“听”的过程中学会每个人说话时字词、音位和句子的发音特点，并通过模仿这个人声音中的情感和语调，“说”出全新的语句；“一听一说”之间，整个过程基本不用人工干预，深度学习技术可以自行完成所有工作。

具体来说，百度的研究人员是通过两种具体的方法来实现的：说话人适应（）和说话人编码（）。它们可以只用最少的音频数据来完成任务，并且在深度语音系统中，即使处于一个多扬声器模型，也不会降低质量。

其中“说话人适应”是使用多个克隆样本，基于反向传播的优化方法对多个说话人语音生成模型做精细调节。这个方法可以只作用于低维度的说话人嵌入，或者作用于整个模型；在低纬度的嵌入时，每个说话人所需的参数量比较少，而且需要较长的克隆时间，生成语音的质量也会差一些。

其中“说话人编码”则需要训练一个单独的模型，用它直接从语音样本中推断出一个新的嵌入数据，然后再把这个嵌入数据用在多个讲话人语音生成的模型中。而且这个方法还带有时域和频域的处理模块，可以从音频样本分析中提取到有关说话人的身份信息，然后用注意力模块把各种信息以最优的方式结合起来。这个方法的好处是克隆耗时少、标明说话人信息所需要的参数少，使得这种方法在输入资源有限的场景中也能够使用。

语音克隆的功与过

在人机交互的个性化场景中，研究人员预期语音克隆可能会有很重要的作用，如可以用来订制个人AI助手、读书音频以及残疾人语音系统等，且对有语言障碍人来说，这个程序能帮助他们练习发声，使他们更容易与人交流，这种过程就像是在和一个善解人意的朋友在聊天一样，可能会成为一个重要的社交工具。

而在心理医疗领域，如果能复原出逝者的声音，这对于痛失亲人后在心理上造成了创伤的人们来说，也无疑是巨大的安慰。

不过语音克隆也会带来一些麻烦，它可能会被用来对公众人物进行恶意攻击；也可能会使声纹识别形同虚设，因为据《新科学家》报道，使用人工智能技术做出声音识别软件，在测试中，准确率已经超过了95%；也可能破坏录音作为法律证据的可信度；还可能会用来假冒他人身份，成为语音诈骗的帮凶。它预示着未来的声音可能会像照片一样，可以很容易地进行伪造。

ai声音克隆软件 AI助力语音克隆，人和自己“对话”的障碍在哪？