ai语音生成软件为元宇宙NPC角色配音，Meta发布全新语音生成AI模型

默认分类1年前 (2023)发布 admin

2,545 0 0

来源丨元宇宙简史

作者丨元宇宙简史主理人 Fun

【元宇宙导读】Meta近日宣布发布全新的语音生成AI模型——，是一个端到端的神经网络模型，它不需要任何人工特征或先验知识，就可以直接从文本生成原始的音频波形。还能够根据角色的外貌、性别、年龄等特征，自动调整语音的参数，使之能够为元宇宙中的NPC角色或虚拟助理生成逼真的配音。

语音生成是人工智能的一个重要领域，它可以让机器或虚拟世界里面的NPC角色用人类的声音说话。

然而，要让NPC角色生成自然而富有表现力的语音，仍然是一个挑战。传统的语音合成系统通常需要大量的人工干预和专业知识，才能调整声音的质量和风格。

此外，这些AI模型往往只能生成单一的声音，而不能根据不同的文本和情境，切换不同的说话者或情感。

近日，Meta的AI研究人员在语音生成AI方面取得了突破性的进展，发布了语音生成AI模型——。

是第一个能够在没有专门训练数据集或预先定义任务目标情况下，完成任何文本到语音任务，并且能够在给定单独语音样本情况下，以说话者原始声音朗读后面的文本内容。

ai语音生成软件为元宇宙NPC角色配音，Meta发布全新语音生成AI模型

和图像和文本的生成系统一样，能以各种各样的风格创建输出，它既可以从零开始创建输出，也可以修改给定的样本。但是，产生的不是图片或文本段落，而是高质量的音频。

在之前，语音生成AI需要针对每个任务进行特定的训练，并使用精心准备的训练数据。使用一种新的方法，只从原始音频和相应的转录中学习。与音频生成的自回归模型不同，可以修改给定样本的任何部分，而不仅仅是给定音频的末尾。

基于一种称为Flow 的方法，该方法已被证明可以改善扩散模型。在零射击文本到语音方面超越了当前最先进的英语模型VALL-E，无论是在可理解性还是在音频相似性方面都是如此，同时速度快达20倍。对于跨语言风格转换，超越了，将平均词错误率从10.9%降低到5.2%，并将音频相似性从0.335提高到0.481。

在词错误率方面实现了新的最先进结果，超越了Vall-E和

还分别在英语和多语言的基准测试上，在音频风格相似度指标上达到了新的最先进水平

利用Meta的AI突破性技术，的强大功能能够支持多种任务：

– 上下文文本到语音合成：使用短至两秒的音频样本，可以匹配样本的音频风格并将其用于文本到语音的生成；

– 语音编辑和降噪：可以重新创建被噪音打断的部分语音或替换说错的词，而无需重新录制整个语音，就像用于音频编辑的橡皮擦一样；

ai语音生成软件为元宇宙NPC角色配音，Meta发布全新语音生成AI模型