ai扒谱软件谷歌推出全能扒谱AI：只要听一遍歌曲，钢琴小提琴的乐谱全有了

默认分类1年前 (2023)发布 admin

546 0 0

ChatGPT国内版

晓查发自凹非寺量子位报道 | 公众号

听一遍曲子，就能知道乐谱，还能马上演奏，而且还掌握“十八般乐器”，钢琴、小提琴、吉他等都不在话下。

这就不是人类音乐大师，而是谷歌推出的“多任务多音轨”音乐转音符模型MT3。

首先需要解释一下什么是多任务多音轨。

通常一首曲子是有多种乐器合奏而来，每个乐曲就是一个音轨，而多任务就是同时将不同音轨的乐谱同时还原出来。

还原后的多音轨听起来是这样的：

听起来是不是很像原版演奏？事实上，谷歌MT3在还原多音轨乐谱这件事上，达到了SOTA的结果。

谷歌已将该论文投给ICLR 2022。

还原多音轨乐谱

相比与自动语音识别 (ASR) ，自动音乐转录 (AMT) 的难度要大得多，因为后者既要同时转录多个乐器，还要保留精细的音高和时间信息。

多音轨的自动音乐转录数据集更是“低资源”的。现有的开源音乐转录数据集一般只包含一到几百小时的音频，相比语音数据集动辄几千上万小时的市场，算是很少了。

ai扒谱软件谷歌推出全能扒谱AI：只要听一遍歌曲，钢琴小提琴的乐谱全有了

先前的音乐转录主要集中在特定于任务的架构上，针对每个任务的各种乐器量身定制。

因此，作者受到低资源NLP任务迁移学习的启发，证明了通用模型可以执行多任务 AMT，并显著提高了低资源乐器的性能。

作者使用单一的通用架构T5，而且是T5“小”模型，其中包含大约6000万个参数。

该模型在编码器和解码器中使用了一系列标准的自注意力“块”。为了产生输出标记序列，该模型使用贪婪自回归解码：输入一个输入序列，将预测出下一个出现概率最高的输出标记附加到该序列中，并重复该过程直到结束。

MT3使用梅尔频谱图作为输入。对于输出，作者构建了一个受MIDI规范启发的token词汇，称为“类MIDI”。

生成的乐谱通过开源软件渲染成音频。

此外，还要解决不同乐曲数据集不平衡和架构不同问题。

作者定义的通用输出token还允许模型同时在多个数据集的混合上进行训练，类似于用多语言翻译模型同时训练几种语言。

这种方法不仅简化了模型设计和训练，而且增加了模型可用训练数据的数量和多样性。

实际效果

在所有指标和所有数据集上，MT3始终优于基线。

ai扒谱软件谷歌推出全能扒谱AI：只要听一遍歌曲，钢琴小提琴的乐谱全有了

训练期间的数据集混合，相比单个数据集训练有很大的性能提升，特别是对于、和 URMP 等“低资源”数据集。

最后再展示一段原音频，以及由MT3识别乐谱渲染的音频。大家可以感受一下区别：

原音频：

MT3：

最近，谷歌团队也放出了MT3的源代码，并在 Face上放出了试玩Demo。

不过由于转换音频需要GPU资源，在 Face上，建议各位将在Colab上运行。

论文地址：

源代码：

Demo地址：

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

# 默认分类 # 科技新闻 # 谷歌 # 音乐 # 音轨

© 版权声明

文章版权归作者所有，未经允许请勿转载。

广告也精彩

相关文章

chatgpt官网手机可以登录吗淘宝上1.68元就能买个ChatGPT账号，应届生不如能写论文的AI？

admin

5,030 0

chatgpt账号和邮箱账号一样吗 chatgpt注册时的邮箱一定是国外账号嘛

admin

2,540 0

chatgpt 马斯克算法不服ChatGPT，马斯克自己做AI大模型，在下一盘很大的棋？

admin

3,536 0

ai语言软件 OpenAI宣布开源多语言语音识别系统Whisper

admin

3,043 0

可以用chatgpt写本科论文吗 ChatGPT写的论文有多少发表了？搜完谷歌学术以后我慌了

admin

3,042 0

chrome chatgpt插件安装方法让浏览器更强大 Chrome插件安装详解

admin

3,043 0

暂无评论

暂无评论...

323AI导航网（323ai.com）—— 精选全球实用AIGC工具箱。 AI人工智能爱好者使用学习必备导航网站，收录了国内外5000+优质AI实用工具网址，一个专业、全面、实用的AIGC工具与AI资讯导航网站，我们聚焦于最新的AI文本、AI绘画、AI视频、ChatGPT、Stable-Diffusion、Midjourney等AI项目，帮助用户发现最前沿的AIGC项目，探索人工智能的无限可能。

友链申请免责声明广告合作关于我们

Copyright © 2025 323AI导航网陕ICP备2023007327号-3