本文内容
重要
神经网络定制声音训练目前仅在部分区域可用。 在受支持区域中训练声音模型后,可以根据需要将其到另一个区域中的语音资源。 有关详细信息,请参阅的脚注。
训练持续时间因使用的数据量而异。 训练神经网络定制声音平均需要约 40 个计算小时。 标准订阅 (S0) 用户可以同时训练四个声音。 如果达到限制,请先等待,直至至少其中一种声音模型训练完毕,然后再试。
注意
尽管每种所需的总小时数不同,但每种训练方法的单价是相同的。 有关详细信息,请参阅自定义神经网络训练定价详细信息。
选择训练方法
验证数据文件后,可使用它们生成神经网络定制声音模型。 创建神经网络定制声音时,可以选择使用以下方法之一对其进行训练:
训练数据的语言必须是神经网络定制声音、跨语言或多风格训练支持的语言之一。
训练神经网络定制声音模型
若要在 中创建神经网络定制声音,请根据以下方法之一执行相应的步骤:
登录 。
选择“定制声音”>>“训练模型”>“训练新模型”。
选择“神经网络”作为模型的训练方法,然后选择“下一步”。 若要使用其他训练方法,请参阅或。
为模型选择一个训练配方版本。 默认情况下会选择最新版本。 支持的功能和训练时间因版本而异。 通常,我们建议使用最新版本。 在某些情况下,可以选择旧版本来减少训练时间。
选择用于训练的数据。 在训练中将会删除重复的音频名称。 确保所选数据在多个 .zip 文件中不包含相同的音频名称。
只能选择已成功处理的数据集进行训练。 如果在列表中未看到你的训练集,请检查数据处理状态。
选择与训练数据中的说话人对应的、包含发音人声明的说话人文件。
选择“下一步” 。
每次训练会自动生成 100 个示例音频文件,以帮助你使用默认脚本来测试模型。
(可选)还可选择“添加自己的测试脚本”,并为自己的测试脚本提供最多 100 个语句来测试模型,而无需额外付费。 生成的音频文件是自动测试脚本与自定义测试脚本的组合。 有关详细信息,请参阅。
输入名称以帮助识别模型。 请谨慎选择名称。 模型名称将通过 SDK 和 SSML 输入用作中的声音名称。 只允许字母、数字以及一些标点字符。 请对不同的神经声音模型使用不同名称。
(可选)输入说明以帮助识别模型。 通常使用说明来记录用于创建模型的数据的名称。
选择“下一步” 。
查看设置并选中接受使用条款的复选框。
选择“提交”以开始训练模型。
登录 。
选择“定制声音”>>“训练模型”>“训练新模型”。
选择“神经网络 – 跨语言”作为模型的。 若要使用其他训练方法,请参阅或。
选择要用作声音模型辅助语言的目标语言。 只能为声音模型选择一种目标语言。
选择用于训练的数据。 在训练中将会删除重复的音频名称。 确保所选数据在多个 .zip 文件中不包含相同的音频名称。
只能选择已成功处理的数据集进行训练。 如果在列表中未看到你的训练集,请检查数据处理状态。
选择与训练数据中的说话人对应的、包含发音人声明的说话人文件。
选择“下一步” 。
每次训练会自动生成 100 个示例音频文件,以帮助你使用默认脚本来测试模型。
(可选)还可选择“添加自己的测试脚本”,并为自己的测试脚本提供最多 100 个语句来测试模型,而无需额外付费。 生成的音频文件是自动测试脚本与自定义测试脚本的组合。 有关详细信息,请参阅。
输入名称以帮助识别模型。 请谨慎选择名称。 模型名称将通过 SDK 和 SSML 输入用作中的声音名称。 只允许字母、数字以及一些标点字符。 请对不同的神经声音模型使用不同名称。
(可选)输入说明以帮助识别模型。 通常使用说明来记录用于创建模型的数据的名称。
选择“下一步” 。
查看设置并选中接受使用条款的复选框。
选择“提交”以开始训练模型。
登录 。
选择“定制声音”>>“训练模型”>“训练新模型”。
选择“神经网络 – 多风格”作为模型的。 若要使用其他训练方法,请参阅或。
选择一种或多种预设的讲话风格进行训练。
选择用于训练的数据。 在训练中将会删除重复的音频名称。 确保所选数据在多个 .zip 文件中不包含相同的音频名称。
只能选择已成功处理的数据集进行训练。 如果在列表中未看到你的训练集,请检查数据处理状态。
选择“下一步”。
(可选)可以添加其他自定义讲话风格。 自定义风格的最大数目因语言而异: ( ) 最多支持 10 种自定义风格, (, ) 最多支持 4 种自定义风格, (Japan) 最多支持 5 种自定义风格。
选择“添加自定义风格”并输入你选择的自定义风格名称。 应用程序将在 的 style 元素内使用此名称。 还可以通过使用 中的有声内容创作工具将自定义风格名称用作 SSML。选择风格示例作为训练数据。 确保自定义说话风格的训练数据与用于创建默认风格的数据来自同一说话者。
选择“下一步” 。
选择与训练数据中的说话人对应的、包含发音人声明的说话人文件。
选择“下一步” 。
每次训练会自动生成 100 个默认风格的示例音频,并为每种预设风格自动生成 20 个示例音频,以帮助你使用默认脚本测试模型。
(可选)还可选择“添加自己的测试脚本”,并为自己的测试脚本提供最多 100 个语句来测试默认风格,而无需额外付费。 生成的音频文件是自动测试脚本与自定义测试脚本的组合。 有关详细信息,请参阅。
输入名称以帮助识别模型。 请谨慎选择名称。 模型名称将通过 SDK 和 SSML 输入用作中的声音名称。 只允许字母、数字以及一些标点字符。 请对不同的神经声音模型使用不同名称。(可选)输入说明以帮助识别模型。 通常使用说明来记录用于创建模型的数据的名称。选择“下一步” 。查看设置并选中接受使用条款的复选框。选择“提交”以开始训练模型。跨不同语言的可用预设样式
下表根据不同的语言汇总了不同的预设风格。
说话风格语言
生气
英语(美国)
中文(普通话,简体)(预览版)
日语(日本)(预览版)
平静
中文(普通话,简体)(预览版)
聊天
中文(普通话,简体)(预览版)
开心
英语(美国)
中文(普通话,简体)(预览版)
日语(日本)(预览版)
不满
中文(普通话,简体)(预览版)
兴奋
英语(美国)
害怕
中文(普通话,简体)(预览版)
友好
英语(美国)
乐观
英语(美国)
悲伤
英语(美国)
中文(普通话,简体)(预览版)
日语(日本)(预览版)
大喊大叫
英语(美国)
害怕
英语(美国)
不友好
英语(美国)
窃窃私语
英语(美国)
严肃
中文(普通话,简体)(预览版)
“训练模型”表会显示与新建模型相对应的新条目。 状态反映了将数据转换为声音模型的过程,如下表中所述:
状态含义
正在处理
正在创建声音模型。
已成功
声音模型已创建并可部署。
已失败
训练声音模型时失败。 失败的原因可能是未发现的数据问题或网络问题等。
已取消
已取消声音模型的训练。
当模型状态为“正在处理”时,可以选择“取消训练”来取消声音模型。 对于这个取消的训练,系统不会向你收费。
成功完成模型训练后,可以查看模型详细信息并。
可以使用 中的有声内容创作工具来创建音频并微调部署的声音。 如果可用于你的声音,则可以选择多种风格之一。
重命名模型
如果要重命名生成的模型,可以选择“克隆模型”,以在当前项目中使用新名称创建模型克隆。
在“克隆声音模型”窗口中输入新名称,然后选择“提交”。 文本“神经网络”将自动添加为新模型名称的后缀。
测试声音模型
成功生成语音模型以后,可以先使用生成的示例音频文件对其进行测试,然后再部署模型。
声音的质量取决于许多因素,例如:
选择“测试”下的“”以收听示例音频文件。 默认测试示例包括训练期间自动生成的 100 个示例音频文件,可帮助测试模型。 除了默认情况下提供的这 100 个音频之外,系统还会将你自己的测试脚本语句添加到 集。 此添加操作最多可添加 100 个语句。 对于使用 进行的测试,不收取费用。
如果要上传自己的测试脚本以进一步测试模型,请选择“添加测试脚本”以上传自己的测试脚本。
上传测试脚本之前,请查看。 系统会根据可计费字符数,对使用批量合成进行的额外测试收取费用。 请参阅 Azure AI 语音定价。
在“添加测试脚本”下,选择“浏览文件”以选择自己的脚本,然后选择“添加”以上传它。
测试脚本要求
测试脚本必须是小于 1 MB 的 .txt 文件。 支持的编码格式包括 ANSI/ASCII、UTF-8、UTF-8-BOM、UTF-16-LE 或 UTF-16-BE。
与不同,测试脚本应排除语句 ID(即每个语句的文件名)。 否则,会朗读这些 ID。
下面是一个 .txt 文件中的一组示例语句:
This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.
每个语句段落都生成一个单独的音频。 如果要将所有句子合并为一个音频,请将它们放在一个段落中。
备注
生成的音频文件是自动测试脚本与自定义测试脚本的组合。
更新声音模型的引擎版本
Azure 文本转语音引擎会不时更新,以捕获定义语言发音的最新语言模型。 在训练声音后,可以通过更新到最新引擎版本将你的声音应用于新的语言模型。
当有新引擎可用时,系统会提示你更新神经声音模型。
转到模型详细信息页并按照屏幕上的说明安装最新引擎。
也可以稍后选择“安装最新引擎”来将模型更新为最新的引擎版本。
引擎更新不收费。 以前的版本仍然保留。
可以在“引擎版本”下拉列表中检查模型的所有引擎版本,或移除不再需要的版本。
更新的版本会自动设置为默认值。 但是,你可以通过从下拉列表中选择某个版本并选择“设置为默认值”来更改默认版本。
如果要测试声音模型的每个引擎版本,则可以从下拉列表中选择某个版本,然后选择“测试”下的“”来收听示例音频文件。 如果要上传自己的测试脚本来进一步测试当前引擎版本,请先确保将该版本设置为默认版本,然后按照中的步骤进行操作。
更新引擎将创建新版本的模型,且无需额外付费。 更新声音模型的引擎版本后,需要部署新版本以。 只能部署默认版本。
创建新终结点后,需要。
要详细了解此功能的功能和限制,以及提高模型质量的最佳做法,请参阅使用神经网络定制声音的特征和限制。
将声音模型复制到另一个项目
可以将声音模型复制到同一区域或另一区域的另一个项目。 例如,可以将在一个区域训练的神经声音模型复制到另一区域的项目。
备注
神经网络定制声音训练目前仅在部分区域可用。 可以将神经网络声音模型从这些区域复制到其他区域。 有关详细信息,请参阅。
若要将神经网络定制声音模型复制到另一个项目:
在“训练模型”选项卡上,选择要复制的声音模型,然后选择“复制到项目”。
选择要复制模型的“区域”、“语音资源”和“项目”。 必须在目标区域具有语音资源和项目,否则需要先创建它们。
选择“提交”以复制模型。
在成功复制的通知消息下选择“查看模型”。
导航到在其中复制了模型的项目以部署模型副本。
后续步骤