在没有标签的情况下扩展视听学习

AI人工智能2年前 (2023)发布 wangzhan
9,997 0
ChatGPT国内版

一种新的多模态技术融合了主要的自我监督学习方法,可以更类似于人类地学习。

在没有标签的情况下扩展视听学习

来自 MIT、MIT-IBM Watson AI 实验室、IBM Research 和其他机构的研究人员开发了一种分析未标记音频和视觉数据的新技术,可以提高语音识别和对象检测等应用中使用的机器学习模型的性能。这项工作首次结合了自监督学习、对比学习和屏蔽数据建模两种架构,旨在扩展机器学习任务,例如单模态和多模态数据中的事件分类,而无需注释,从而复制人类如何理解和感知我们的世界。

“人类知识的很大一部分是通过自我监督的方式学习的,因为我们并不总是得到监督信号,我们希望使机器学习模型具有相同的能力,”麻省理工学院博士后袁弓说在计算机科学与人工智能实验室(CSAIL)。

“因此,另一种说法是,自我监督学习通常构成初始模型的基础,因为它可以学习大量未标记的数据。然后,如果您愿意,您可以使用经典的监督学习或强化学习将模型微调为特定的内容,”麻省理工学院高级研究科学家兼 MIT-IBM Watson AI 实验室成员 Jim Glass 说道。

该技术称为对比视听掩码自动编码器(CAV-MAE),是一种神经网络,可以通过在大型 YouTube 数据集上进行训练,学习从声学和视觉数据中提取有意义的潜在表示并将其映射到高维空间中。音频和视频 10 秒剪辑。研究人员表示,该技术比以前的方法更有效,因为它以其他方法无法做到的方式明确地建模了音频和视觉数据之间的关系。

与 Kong 和 Glass 一起参与这项研究的还有麻省理工学院的研究生 Andrew Rouditchenko 和 Alexander H. Liu、德克萨斯大学奥斯汀分校的 David Harwath 博士 ’18,以及 MIT-IBM Watson AI 实验室成员 Leonid Karlinsky 和 ​​Hilde Kuehne。Kuehne 还隶属于法兰克福歌德大学。该方法最近在国际学习表征会议上提出。

联合协调的方法

龚说,CAV-MAE 的工作原理是“通过预测学习”和“通过比较学习”。屏蔽数据建模或预测方法采用视频及其协调的音频波形,将音频转换为频谱图,并屏蔽两者的 75%。未屏蔽的数据被标记化,然后输入单独的音频和视觉编码器,然后进入联合编码器/解码器,其中模型被要求恢复丢失的数据。然后,使用生成的重建预测与原始视听组合之间的差异(重建损失)来训练模型以获得更好的性能。一个例子是覆盖钢琴视频的一部分和钢琴音乐频谱图的一部分,然后要求模型尝试确定屏蔽的输入。很遗憾,

对比学习的目的是映射彼此相似的表示。例如,该模型将尝试将不同鹦鹉的不同视频和音频数据放置得彼此靠近,并远离吉他演奏的视频和音频对。与屏蔽自动编码类似,视听对被传递到单独的模态编码器中;然而,在模型执行池化和对比损失之前,音频和视觉组件分别保存在联合编码器中。通过这种方式,对比学习试图识别每个音频或视频中与另一个最相关的部分。例如,如果视频显示某人说话,并且相应的音频剪辑包含语音,则自动编码器将学习将说话者的嘴部动作与所说的单词关联起来。然后,它将调整模型的参数,以便这些输入的表示彼此接近。最终,CAV-MAE 方法将两种技术与多个前向数据流相结合,第一步是掩蔽、特定于模态的编码器和层归一化,以便表示强度相似。

“我们[然后]想要将所提出的 CAV-MAE 与仅使用屏蔽自动编码器训练的模型和仅使用对比学习训练的模型进行比较,因为我们想表明,通过结合屏蔽自动编码器和对比学习,我们可以获得一些性能进步,”龚说,“结果支持了我们的假设,即有明显的进步。”

研究人员使用标准 AudioSet(20K 和 2M)将 CAV-MAE 及其没有对比损失或屏蔽自动编码器的方法与其他最先进的视听检索和视听事件分类任务方法进行了测试。 VGGSound 数据集 — 带标签的真实短片,其中可能包含多种声音。视听检索意味着模型看到查询对的音频或视觉部分并搜索丢失的部分;事件分类包括识别数据中的动作或声音,例如人唱歌或汽车行驶。

总的来说,他们发现对比学习和屏蔽数据建模是互补的方法。与具有可比计算能力的模型相比,CAV-MAE 的事件分类性能能够比以前的技术(通过完全自监督的预训练)高出约 2%,更令人印象深刻的是,它与具有行业级计算资源的模型保持同步或优于模型。该团队的模型排名与仅使用对比损失训练的模型类似。令人惊讶的是,该团队表示,将多模态数据纳入 CAV-MAE 预训练极大地提高了通过监督学习(使用一些标记数据)对单模态表示的微调以及纯音频事件分类任务的性能。这表明,像人类一样,即使对于仅音频或视觉任务,多模态信息也提供了额外的“软标签”提升;例如,它可以帮助模型了解它是在寻找电吉他还是原声吉他——更丰富的监督信号。

“我认为人们喜欢这种模型的优雅,它可以将不同音频和视频流中的信息结合起来。它具有对比和重建损失,与使用类似数据评估的模型相比,它显然在一系列任务中表现得非常好,”格拉斯说。

在此基础上,“一个特别的事情是,我们的模型可以同时进行分类和检索,这并不常见,”Gong 补充道。“在这项工作之前,这些方法是单独使用的,但在这项工作之后,我发现大多数视听学习框架都隐式或显式地一起使用收缩损失和屏蔽自动编码器。”

将自我监督的视听学习带入我们的世界

研究人员将他们对对比视听掩码自动编码器(CAV-MAE)的贡献视为一个重要的里程碑,也是应用程序向前迈出的一步,这些应用程序越来越多地从单一模态转向多模态,并且需要或利用视听融合。他们假设有一天它可以用于体育、教育、娱乐、机动车辆和公共安全等领域的动作识别。有一天,它还可能扩展到其他模式。目前,“这只适用于视听数据可能是一个限制,但我们的目标是多模态学习,这是机器学习的趋势,”龚说。“作为人类,我们有多种方式——我们有嗅觉、触觉——还有更多的东西,不仅仅是视听。所以,当我们尝试构建人工智能时,我们试图以某种方式模仿人类,

随着机器学习模型在我们的生活中继续发挥越来越重要的作用,像这样的技术将变得越来越有价值。

323AI导航网发布

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...