ai克隆声音软件《轮到你了》的菜奈AI是如何克隆声音的？

默认分类1年前 (2023)发布 admin

5,029 0 0

ChatGPT国内版

最近在追日剧《轮到你了》，最新的15集里，二阶堂给翔太制作了一个菜奈的AI，是个手机app，界面非常简单，采用的是聊天机器人的界面，只不过是语音聊天的方式，此AI学习了菜奈的声音跟语言风格。

那么，我们如果想自己DIY一个，应该如何操作呢？

首先，我们了解下相关的技术概念。

01

传统方法

语音合成

Text to

是一种将文本转化为语音的技术。

传统TTS是基于拼接和参数合成技术，涉及非常多的细节，比如以文本分析语言模型、语音持续时间模型、声学特征预测模型、将频谱恢复成时域波形的声码器等等。

02

ai克隆声音软件《轮到你了》的菜奈AI是如何克隆声音的？

“端到端”深度学习

深度学习的解决方案是一种称为“端到端”的生成模型。典型代表是谷歌的。

所谓“端到端”就是直接从文本合成语音，不需要拆解出文本分析、语音持续时间、声学特征等子系统，只需准备［文本，声谱］配对的数据集，即可进行训练。

中文语音数据集长什么样呢？

比如，有这么一句文本：

绿是阳春烟景大块文章的底色四月的林峦更是绿得鲜活秀媚诗意盎然

使用汉语拼音标注为：

lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 de5 di3 se4 si4 yue4 de5 lin2 luan2 geng4 shi4 lv4 de5 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2

这样就可以让机器学会将每一个类似于英文单词的方式，对应到声谱的某几帧。

03

ai克隆声音软件《轮到你了》的菜奈AI是如何克隆声音的？

使用

如果想自己动手训练一个属于自己的文本转语音AI，可以查找谷歌的开源代码，自己修改训练。

如果不想这么麻烦，我们可以选择API调用的方式，百度ai或者讯飞都提供了类似的功能，声音也有多种风格可选。

04

风格迁移

这只是文本转语音，如果我们想要让这个语音可以按照某个人的声音输出，应该怎么办呢？

图像领域有风格迁移技术，受此启发，谷歌发布了一个可以克隆任何人声音的模型。

开源地址

使用简单，有兴趣可以去了解下。

综上，一款可以克隆任何人声音的AI即将诞生。

与作者交流可以添加

# 默认分类 # 克隆 # 文本 # 模型 # 语音 # 谷歌

© 版权声明

文章版权归作者所有，未经允许请勿转载。

广告也精彩

相关文章

chatgpt是基于大数据的技术吗 ChatGPT背后的逻辑：人工智能时代的“大模型”

admin

1,541 0

微软官宣chatgpt接入bing chatGPT加持的微软bing登台，将取代巨头Google？

admin

1,041 0

chatgpt自动化应用国内如何使用chatGPT4，集简云已接入API接口，可将GPT

admin

1,046 0

chatgpt 一天算力消耗多少 ChatGPT 们难以复制的原因，除了耗显卡，还有水电费太贵？

admin

3,031 0

chatgpt和搜索引擎的不同 ChatGPT冷思考：搜索引擎的末日，还是新生？

admin

2,526 0

ai智能视觉软件 Google宣布推出一款视觉检测人工智能工具

admin

4,524 0

暂无评论

暂无评论...

323AI导航网（323ai.com）—— 精选全球实用AIGC工具箱。 AI人工智能爱好者使用学习必备导航网站，收录了国内外5000+优质AI实用工具网址，一个专业、全面、实用的AIGC工具与AI资讯导航网站，我们聚焦于最新的AI文本、AI绘画、AI视频、ChatGPT、Stable-Diffusion、Midjourney等AI项目，帮助用户发现最前沿的AIGC项目，探索人工智能的无限可能。

友链申请免责声明广告合作关于我们

Copyright © 2024 323AI导航网陕ICP备2023007327号-3