ai声音模拟软件 模型方法-一个很简单便捷的语音助手Whisper

默认分类10个月前发布 admin
3,536 0
ChatGPT国内版

前言

一个音频识别的泛化软件,家的。

其实这个软件早在三个月前就被提供出来了,功能也很简单,音频 -> 文字;虽然本身模型基本和结构一致,但做AI现在集中在图像、NLP以及视频理解等领域的多模态,音频还是要适当接触一下。

很多年前读过的一般书介绍语音识别的还是基于HMM、RNN以及LSTM这些方法,很久没看这个方向,肯定也有很多人吧这个模块应用到音频领域。看了文章的模型框架一下就是经典的-;部分音频序列,是文本加编码。所以简单说说一声使用体验。

代码索引:

实验

安装过程很简单,一步一步下来就好的。使用提供了命令行和调用;

命令行主要输入音频,然后–model是使用大小模型,也有专门提供给英文使用的模型。

whisper audio.flac audio.mp3 audio.wav --model medium

— 可以进行语言选择,–task可以选择任务,比如翻译等。

whisper japanese.wav --language Japanese --task translate

具体为什么这里放日语呢。。。说明文档就这么写的,我估计他们也有翻译日语的需求,比如生肉动漫。

ai声音模拟软件 模型方法-一个很简单便捷的语音助手Whisper

具体的相关语言可以找的编码脚本里查看。

实验1 周董的音乐

周杰伦的歌曲必然有难度,转出效果如下:

其实这里为啥会有 Harp,我理解是模型能识别出一些语言信号。

但结尾部分为啥会有词曲?

我专门看了这首歌音频就到了4:57, 我理解他还是会提出音频信号里其他信息,主要不做这个的。但其实后期根据音频长短可以剪切。

实验2 日语歌

一部分原因是一直看柯南,特别喜欢麻衣的《》,另一方面就是尝试测试电影能不能翻译。

主要翻译的也看懂,只是觉得有点怪,可能副歌部分出现很多次。

ai声音模拟软件 模型方法-一个很简单便捷的语音助手Whisper

模型方法

直接上图就可以看到简单的端到端方法,实现为编码器-解码器 。输入音频被分成 30 秒的块,转换成 log-Mel频谱图,然后传递到编码器。解码器被训练来预测相应的文本标题。

特殊标记混合,这些标记指导单个模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。

大家也很努力在

创建了很多功能:

直接看着还是很多很有意思的。当然作为非监督的模型,他的训练数据集也很恐怖680k hour,很多音频+文本估计是没有版权的直接塞进去学习吧。

总结

一个很工业级的产品,没有太多花里胡哨的。

有可能后面会和GPT成为一个系列吧。

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...