ai声音模拟软件 如何使用AI人声合成音源NEUTRINO软件(YOKO&KIRITAN)?

默认分类10个月前发布 admin
1,547 0
ChatGPT国内版

—- 交流群,有bug什么的问题或者制作相关可以进群交流: —-

==========================

4月29日更新:

添加了 使用进行节奏修正 的内容,添加/修改了本文部分内容。

!!!官网更新了v0.200版本!!!

此版本采用了全新的nsf技术,关于新技术请查阅新文章:

使用官方推荐的进行节奏修正:

==========================

写在开头:mac版bug偏多,笔者专门制作了修复了bug、添加了新功能的程序,将在后面给出下载链接、介绍使用方法。(软件版本v0.103b)

一、简介——什么是

由来自日本名古屋工业大学的所开发的、基于卷积神经网络的、免费的虚拟人声合成软件。使用神经网络,可以估算发声时间、音调、语音质量和语音模糊,再经由语音由声码器合成最终的声音。只需要输入一个带有歌词的文件,就可以将其启动转化为已经“唱好”的wav音频文件。

目前已经开发出了東北きりたん()和謡子(YOKO)两个声源,官方试听如下(只截取部分):

東北きりたん:

AI歌姬

謡子:

AI歌姬YOKO

通过官方demo我们可以得知,是偏向可爱、活力型的声音,而YOKO偏向美声、成熟,所以在创作时我们可以根据需要选择。

二、软件下载、具体使用方法与基本参数

参数在三大系统上都是通用的,但是笔者所使用的MacOS上此软件bug非常多,为此笔者专门优化了部分代码,修改了bug,添加了更为实用的功能,将在后面介绍并且贴出本人修改优化后的文件;而在平台上还未见有任何bug,平台的各位可放心使用。

官方网址:.work/

官网内有、MacOS、Linux三种系统的下载链接。

MAC版百度网盘(内附修复加强版的Run.sh):链接:/s/1wU–J01-kmceA 密码:dva2 密码:79q0(版本v0.103b)

======================

先讲使用方法:

用户

下载好软件包、解压;把想要转换的乐谱导出成格式,并且复制到所在文件夹的 score/ 文件夹内,并且改名为.xml;之后直接运行软件根目录下的Run.bat,等待软件自动计算完毕关闭窗口后,在文件夹中可找到最后合成的音频文件:.wav

如果要调整歌姬或其它参数,请往下看,并使用任意一款文字编辑器(比如记事本)打开Run.bat,进行相应更改,保存即可。

2.macOS用户

下载好软件包、解压;由于官方mac版存在bug,请直接在上面百度云中下载好其中的Run.sh文件,并且复制进软件目录中替换;把想要转换的乐谱导出成格式,直接复制进score/文件夹中,不需要改名,可以为任何名字;运行替换后的Run.sh,会提示你要转换文件夹中的哪个文件,选好后会提示你使用哪个歌姬进行转换,选好后就开始了转换进程,软件会提示你文件导出到何处了,在文件夹下对应文件名的音频文件就是;导出完毕后,软件提示成功,并且按任意键关闭。。。

=====================

软件结构是这样的:

这是下载好解压后的文件

其中,在bin文件夹中,分别是3个动态库+编译好的可执行文件:

程序的作用是将文件转换成软件可直接读取操作的label文件;

程序作用是将生成好的label文件根据你所选择的声源库进行计算,在中生成3个计算好的 .f0 .mgc .bap文件;

WORLD程序的作用是,根据设置好的WORLD参数,将上述 .f0 .mgc .bap文件转换成最终的wav文件。

程序一步一步进行,非常的有结构,分离度很高,不容易出现整体性问题。

model文件夹下放的则是两个声源的各自声源库、特殊算法等。

ai声音模拟软件 如何使用AI人声合成音源NEUTRINO软件(YOKO&KIRITAN)?

文件夹下则是专门用来存放已经导出的 .f0 .mgc .bap和 .wav文件(但其实我们只需要最终的wav,前面三个是在WORLD程序要用到的,计算结束后这三个文件删掉也没关系)。

score下专门存放程序需要的label文件和用户自己导出的文件。

则是存放一些字符转译规则等,比如.utf_8.table文件内容是在utf8编码下,日语各个假名所对应的罗马音。

在主目录下的开头的以及文件名为一串数字的文本文档是关于版权的内容,

禁止将本软件用于以下场景:

抄袭行为;

政治、宗教宣传行为;

自杀、自残等暴力宣传行为;

诽谤、暴力他人;

宣传违背公序良俗的行为;

污名化人物形象的行为。

【禁止事項】

以下の表現・利用・行為は禁止します。

製作者を偽ること

特定の政党・政治家・宗教などを賞賛又は批判する行為

自殺、自傷、暴力を推奨する表現/利用

他者を誹謗中傷する表現/利用

常識、公序良俗に著しく反する表現/利用

キャラクターのイメージを著しく損なう行為

请各位使用软件的用户遵守以上约定!

接下来是最重要的Run.sh(或Run.bat)文件,大家要运行以上程序,只需要点击一下Run.sh文件就可以了!!!!

Run.sh是MacOs及Linux下的shell执行文件,下则是Run.bat,用户运行Run.bat就可以了!

正常的运行方法是,把需要转换的文件,改名成 .,然后再点击Run.sh或Run.bat,就可以在文件夹中生成最后的文件:.wav。

那我们的参数呢?怎么选歌姬?怎么更改其它参数?

这些参数都作为变量储存在Run.sh或Run.bat中,用户如果要更改,则要手动编辑Run.sh或Run.bat的代码,非常不方便!!!而且在mac下还有找不到路径以及label文件缓存的bug!!!

于是本人修改、添加了部分代码,制作了加强版的Run.sh(只做了mac):

运行后不会出现找不到路径和label的bug,同时先让你选择要转换score/下的哪个文件,没有文件名限制,选择好后再让你选择使用哪个歌姬进行转换,转换完成后会提示你已完成,按任意键退出。。。

其实这只是很简单的功能,不需要太多代码知识。的不方便之处在于开发尚未完好,没有图形界面供用户调整参数,用户得自行修改命令行的变量才能修改参数。于是我就将可供选择的参数都做成了选项,而其它不需要每次选择的则不做选项,留给用户自行更改。

这个软件本身能调整的参数很少,毕竟是自动生成嘛,调的太多就不自动了。

把Run.sh或者Run.bat用编辑器打开,本质就是shell或者CMD的命令:

上图是本人优化过的sh。

Run.sh或Run.bat通过命令符来轮流调用三个程序,来完成转换。

下面我们讲解哪些参数影响哪些功能:

和也是可以修改的,决定了读取文件的后缀,为时读取文件,为xml时读取xml文件,只能改成这两种,其他读不了,但笔者觉得没必要改,保持就可以了(xml是的另一种通用格式)。而决定读取文件的文件名,默认,由于笔者在增强版里增加了自动选择文件名的功能,所以这个变量就没用了。

第一个可调参数是代表计算所使用的内核线程数,这个大家都知道,自行调整,保持默认值3也没问题。

第二个可调参数是,用来选择使用哪个歌姬,这个我已经做成每次开启都会提示的选项了。用户得自己选,值是就是,是YOKO就是YOKO(必须为大写)

第三个是,用来调整偏移多少半音,默认1是不偏移,这个功能不建议使用,要偏移半音请直接对谱子进行移调,要偏移音分请使用另外的软件对输出结果进行偏移。

第四个是,调整歌姬的音色,默认1是不调整,值越大越像小孩,反之则像大人,调太大效果会很夸张,不太行,请谨慎调整。

后面就没有可调的参数了,其它就是我自己加的命令。修改后直接保存,下次运行就是使用修改后的参数运行了。

ai声音模拟软件 如何使用AI人声合成音源NEUTRINO软件(YOKO&KIRITAN)?

三、一些不足、乐谱编辑上的建议

由于这个歌姬可调参数和v家或是等相比真是少的可怜,不过既然是自动,肯定不能让人调太多,下面说下这个歌姬的缺点:

演唱的《无法触及的爱》长音是断的,很假。

没错,没有真的长音,如果使用长音符号ー,最后出来的效果也是断开的,如果不使用长音符号,直接使用じょう这样的形式,他也只会分开两个字念!所以长音要么写成じょー,要么写成じょお,效果还可能会很明显的断开。

这个挺致命的,得靠拼接+来修,官方说正在加入这个功能,等待下一个版本出现吧。

2. 高音和低音有点假

到低音,长音颤的很不自然,高音也如此,只有大概E4~E5音域是最自然的(以进行测试),所以使用这个歌姬得注意音域问题,不能在低音和高音区逗留太久。

3. 偏音有点过

为了让音源仿真,这里面会有故意让一些音没唱准的算法,但是这个算法太过了,某些音音头有些许没唱准很符合真实情况,但是他一整个音都不准而且不准的量偏大了,显得某些字不太好听。

4. 转音不自然

转音在某些地方有很明显的“拼接”痕迹,上下两个字不管在音色还是节奏上,都会出现不连续,这就导致不自然,很假。

编辑上的建议

换气

大家在编辑的时候一定要注意“换气”,适当加入换气符号,才能接近真实演唱。比如下例:

在这一行的第3小节中,も是一句结尾,正常歌手在这里都会换气。改成下面这样更好:

换气他会截断音符的时值,如果是很长的一个音符(连音线连起来的音符也会视为一个音符),会被截的很短,这时候直接长音符结尾加个休止符来模拟换气更好:

使用了换气符号,会自动加入气声,休止符则没有(就算给休止符加上换气符号也不会有气声)。

2. 助词は

它不能识别助词的は和普通的は,她把は一律念成ha,所以在ha作为助词时,我们歌词都得替换成わ。

3. 促音

促音可以单独写在一个音符上,也可以放在其它词后面:

对于快速度歌曲来说,第一种方式可能会不自然,所以可以手动添加休止符,模仿促音效果:

如果歌曲慢速,由于这个软件本身没有真实连音的特点,第一种方式写的促音,会有连音问题,而且手动模仿促音休止的效果也可能会造成不自然,目前版本没有解决办法,得靠自己用等修音软件修。还有个的问题是,促音后面是辅音为s的假名时,在辅音时值内的[s]音会很短且不自然。可以使用进行修正。

4. 除了促音,只能一字一音

除了上述说的,促音可以放在一个词后面,其它词必须一字一音,比如上图,最终结果是か被吃了,那个音只有な。

5. 连音线用于连音,连句线没用

连音线大家肯定都知道咋用,这个软件也能正常识别连音线,把时值连起来。

但在实际打谱中,我们可能会加上连句线,用来告知歌手这是一句,便于歌手发挥情感表达,但这软件没有识别连句线的算法,所以不要给它加连句线了:

比如上图,连句线加不加都一样。

6. 注意音域

目前版本的音源在低音区和高音区都比较不自然,低音区锯齿波感很严重,高音显得比较机械,不宜在高音和低音区停留过久,创作时要注意音域,选择在E4~E5之间()作为主音区比较好。

————–

建议最后导出后再使用,或者等修音软件修一修,可以做到官方demo一样的以假乱真。

————结束————

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...