前言
一个音频识别的泛化软件,家的。
其实这个软件早在三个月前就被提供出来了,功能也很简单,音频 -> 文字;虽然本身模型基本和结构一致,但做AI现在集中在图像、NLP以及视频理解等领域的多模态,音频还是要适当接触一下。
很多年前读过的一般书介绍语音识别的还是基于HMM、RNN以及LSTM这些方法,很久没看这个方向,肯定也有很多人吧这个模块应用到音频领域。看了文章的模型框架一下就是经典的-;部分音频序列,是文本加编码。所以简单说说一声使用体验。
代码索引:
实验
安装过程很简单,一步一步下来就好的。使用提供了命令行和调用;
命令行主要输入音频,然后–model是使用大小模型,也有专门提供给英文使用的模型。
whisper audio.flac audio.mp3 audio.wav --model medium
— 可以进行语言选择,–task可以选择任务,比如翻译等。
whisper japanese.wav --language Japanese --task translate
具体为什么这里放日语呢。。。说明文档就这么写的,我估计他们也有翻译日语的需求,比如生肉动漫。
具体的相关语言可以找的编码脚本里查看。
实验1 周董的音乐
周杰伦的歌曲必然有难度,转出效果如下:
其实这里为啥会有 Harp,我理解是模型能识别出一些语言信号。
但结尾部分为啥会有词曲?
我专门看了这首歌音频就到了4:57, 我理解他还是会提出音频信号里其他信息,主要不做这个的。但其实后期根据音频长短可以剪切。
实验2 日语歌
一部分原因是一直看柯南,特别喜欢麻衣的《》,另一方面就是尝试测试电影能不能翻译。
主要翻译的也看懂,只是觉得有点怪,可能副歌部分出现很多次。
模型方法
直接上图就可以看到简单的端到端方法,实现为编码器-解码器 。输入音频被分成 30 秒的块,转换成 log-Mel频谱图,然后传递到编码器。解码器被训练来预测相应的文本标题。
特殊标记混合,这些标记指导单个模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。
大家也很努力在
创建了很多功能:
直接看着还是很多很有意思的。当然作为非监督的模型,他的训练数据集也很恐怖680k hour,很多音频+文本估计是没有版权的直接塞进去学习吧。
总结
一个很工业级的产品,没有太多花里胡哨的。
有可能后面会和GPT成为一个系列吧。