席卷而来的AI风潮刮到了各个模态,音频创作作为重要形态之一,也逐渐涌现出众多产品与模型,但音频合成的基本原理你是否了解呢?一起来看看吧。文章源自菜鸟学院-一、定义
组成声音的结构包括音素、音节、音位、语素等,音频生成是对这些基本单位进行预测和组合,通过频谱逼近或波形逼近的合成策略来生成对应的声音波形。文章源自菜鸟学院-
语音合成的本质是通过对于语句结构和关系的学习来预测其声学特征,还原声音波形的过程。语音+音频结合后才得到我们常见的歌曲、朗读等形态。文章源自菜鸟学院-
音频生成目前主要包括:根据文本合成语音(text-to-),进行不同语言之间的语音转换,音色克隆( Voice ),根据视觉内容(图像或视频)进行语音描述,以及生成旋律、音乐等。文章源自菜鸟学院-二、发展历程
音频生成随着计算机技术的发展,逐渐形成了以“文本分析-声学模型-声码器”为基本结构的语音合成方法。文章源自菜鸟学院-
基于对这个结构部分模块的替代或优化,音频生成的关键技术大致经历了拼接合成阶段、参数合成阶段、端到端合成阶段三个时期。文章源自菜鸟学院-1. 波形拼接语音合成
顾名思义,波形拼接法是通过对语句的音素、音节、单词等进行特征标注和切分之后,在已有的语音数据库中查找基本单位,拼接合成语音。文章源自菜鸟学院-
其背后需要录制大量的音频,尽可能覆盖全所有的音节、音素等,数据库中的录音量(样本)越多,最后合成的音频效果越好。文章源自菜鸟学院-
文章源自菜鸟学院-2. 参数语音合成技术
参数合成法是主要是通过数学方法对已有声音数据进行声学特征参数建模,构建文本序列映射到语音特征的映射关系,生成参数合成器。文章源自菜鸟学院-
训练好的模型对输入数据进行分词、断句、韵律分析等,映射出对应的声学特征,再由声学模型(声码器)合成音频。文章源自菜鸟学院-
文章源自菜鸟学院-3. 端到端语音合成技术
端到端语音合成技术是目前最为主流的技术,通过神经网络学习的方法,采用编码器-注意力机制-解码器(–)的声学模型,实现直接输入文本或者注音字符。文章源自菜鸟学院-
中间为黑盒部分,最后输出频谱和声音波形合成音频,简化了复杂的语言分析部分和特征抽取过程。文章源自菜鸟学院-
端到端合成大大降低了对语言学知识的要求,可以实现多种语言的语音合成。通过端到端合成的音频,效果得到的进一步的优化,更加自然,趋近真人发声效果。文章源自菜鸟学院-
目前,语音生成领域应用广泛且效果优秀的产品均基于端到端合成框架实现的,模型性能和应用能力的提升使其逐渐成为主流。文章源自菜鸟学院-
文章源自菜鸟学院-
当前的开源模型在不断迭代更新,端到端合成目前比较火的有、-TTS、WavLM等模型。文章源自菜鸟学院-三、影响应用能力的关键因素
文章源自菜鸟学院-四、输入类型
文章源自菜鸟学院-五、效果指标1. MOS值
定义:找一些业内专家,对合成的音频效果进行打分,分值在1-5分之间,通过平均得到最后的分数。文章源自菜鸟学院-
这是一个相对主观的评分,没有具体的评分标准。根据个人对音色的喜好,对合成音频内容场景的掌握情况,以及对语音合成的了解程度是强相关的。文章源自菜鸟学院-
虽然mos值是一个比较主观的测试方式,但也有一些可评判的标准。例如在合成的音频中,多音字的读法、当前场景下数字的播报方式、英语的播报方式,以及在韵律方面,词语是否连在一起播报、应该重读的地方是否有重读、停顿的地方是否合理、音色是否符合应用于当前的这个场景。都可以在打分的时候做为得分失分的依据。文章源自菜鸟学院-2. ABX测评
定义:熟知的AB测试,选择相同的文本以及相同场景下的音色,用不同的模型合成来对比哪个的效果较好,也是人为的主观判断。文章源自菜鸟学院-
但是具有一定的对比性,哪个模型更适合当前的场景,合成的效果更好。文章源自菜鸟学院-3. 其他指标
围绕合成音频的可懂性、自然度、相似度。以中文为例,还有些指标包括PER(拼音-不包含声调-错误率,越低越好)、PTER(拼音-包含声调-错误率,越低越好)、Sim(与真人声音的相似度,越高越好)等。文章源自菜鸟学院-六、应用场景
文章源自菜鸟学院-1. 文本-语音合成(TTS)
目前技术发展已经较为成熟,市面上已有较多公司(讯飞、出门问问、思必驰等)推出了商业化产品,主要聚焦的应用场景是AI语音合成文章源自菜鸟学院-
文章源自菜鸟学院-
文章源自菜鸟学院-
文章源自菜鸟学院-
虚拟人主播文章源自菜鸟学院-2. 音色迁移/语音克隆(SVC)
这段时间爆火的“AI孙燕姿”就是音色克隆的代表之一,只需要一定数量的训练集录音,就可将输入的文本或语音转换为目标模型音色文章源自菜鸟学院-
部分商业化产品目前也在试行推广这一功能。文章源自菜鸟学院-
文章源自菜鸟学院-
文章源自菜鸟学院-
目前也有开源模型支持个人训练,仅需满足硬件限制(6GB以上显存的NVDIA显卡、系统)。文章源自菜鸟学院-
例如比较主流的模型so-vits-svc,部署后可直接通过webui即可进行训练操作。文章源自菜鸟学院-
仓库地址:so-vits-svc/.md at 4.1- · svc–team/so-vits-svc · 文章源自菜鸟学院-
至此音频合成的知识入门就告一段落,感兴趣的同学可以尝试语音克隆的模型训练去了解更多,实践出真知~文章源自菜鸟学院-
本文引用数据源:文章源自菜鸟学院-
易观千帆:文章源自菜鸟学院-