这种机器学习系统可以模拟听众如何从房间的任何一点听到声音。
想象一下管风琴发出的隆隆的和弦在一座巨大的石头大教堂的洞穴般的圣殿中回响。
参观大教堂的人听到的声音受到许多因素的影响,包括管风琴的位置、听众站立的位置、它们之间是否有柱子、长椅或其他障碍物、墙壁的材质、乐器的位置等。窗户或门口等。听到声音可以帮助人们想象他们的环境。
麻省理工学院和 MIT-IBM Watson AI 实验室的研究人员正在探索利用空间声学信息来帮助机器更好地想象其环境。他们开发了一种机器学习模型,可以捕获房间中的任何声音如何在空间中传播,从而使模型能够模拟听众在不同位置听到的声音。
通过对场景的声学进行精确建模,系统可以从录音中了解房间的底层 3D 几何形状。研究人员可以使用他们的系统捕获的声学信息来构建房间的准确视觉渲染,类似于人类在估计物理环境特性时使用声音的方式。
除了在虚拟和增强现实中的潜在应用之外,这项技术还可以帮助人工智能代理更好地理解周围的世界。例如,通过对环境中声音的声学特性进行建模,水下探索机器人可以感知比仅靠视觉更远的物体,电气工程与计算机科学系的研究生杜一伦 (Yilun Du) 说。 EECS)和描述该模型的论文的合著者。
“到目前为止,大多数研究人员只关注视觉建模。但作为人类,我们具有多模式感知。不仅视觉很重要,声音也很重要。我认为这项工作开辟了一个令人兴奋的研究方向,即更好地利用声音来模拟世界,”杜说。
与杜一起撰写该论文的还有卡内基梅隆大学 (CMU) 的研究生 Andrew Luo;Michael J. Tarr,卡内基梅隆大学认知与脑科学 Kavčić-Moura 教授;资深作者 Joshua B. Tenenbaum,麻省理工学院大脑与认知科学系教授,计算机科学与人工智能实验室 (CSAIL) 成员;Antonio Torralba,Delta Electronics 电气工程和计算机科学教授,CSAIL 成员;甘创 (Chang Gan),麻省理工学院-IBM 沃森人工智能实验室的主要研究人员。该研究将在神经信息处理系统会议上发表。
声音和视觉
在计算机视觉研究中,一种称为隐式神经表示模型的机器学习模型已用于从图像生成平滑、连续的 3D 场景重建。这些模型利用神经网络,其中包含互连节点或神经元层,用于处理数据以完成任务。
麻省理工学院的研究人员采用相同类型的模型来捕捉声音如何在场景中连续传播。
但他们发现视觉模型受益于一种称为光度一致性的特性,该特性不适用于声音。如果从两个不同的位置观察同一个物体,该物体看起来大致相同。但对于声音来说,改变位置,由于障碍物、距离等原因,人们听到的声音可能会完全不同。这使得预测音频变得非常困难。
研究人员通过将声学的两个特性纳入他们的模型中克服了这个问题:声音的相互性质和局部几何特征的影响。
声音是相互的,这意味着如果声源和听者交换位置,人听到的内容不会改变。此外,人们在特定区域听到的声音很大程度上受到当地特征的影响,例如听者和声源之间的障碍物。
为了将这两个因素纳入他们的模型(称为神经声场(NAF))中,他们使用捕捉场景中的物体和建筑特征(如门口或墙壁)的网格来增强神经网络。该模型在该网格上随机采样点以学习特定位置的特征。
“如果你想象站在门口附近,对你听到的声音影响最大的是门口的存在,而不一定是房间另一侧远离你的几何特征。我们发现这些信息比简单的全连接网络具有更好的泛化能力,”罗说。
从预测声音到可视化场
研究人员可以向 NAF 提供有关场景的视觉信息和一些频谱图,这些频谱图显示当发射器和听者位于房间周围的目标位置时一段音频听起来是什么样的。然后,模型会预测如果听众移动到场景中的任意点,音频听起来会是什么样子。
NAF 输出脉冲响应,捕获声音在场景中传播时应如何变化。然后,研究人员将这种脉冲响应应用于不同的声音,以听听当一个人走过房间时这些声音应该如何变化。
例如,如果房间中央的扬声器正在播放歌曲,他们的模型将显示当一个人接近扬声器时声音如何变大,然后当他们走到相邻的走廊时声音如何变得低沉。
当研究人员将他们的技术与其他模拟声学信息的方法进行比较时,它在每种情况下都生成了更准确的声音模型。而且由于它学习了局部几何信息,因此他们的模型能够比其他方法更好地推广到场景中的新位置。
此外,他们发现将模型学到的声学信息应用到计算机视觉模型中可以更好地重建场景的视觉效果。
“例如,当您只有一组稀疏的视图时,使用这些声学特征可以使您更清晰地捕获边界。也许这是因为要准确渲染场景的声学效果,您必须捕获该场景的底层 3D 几何形状,”Du 说。
研究人员计划继续增强该模型,使其能够推广到全新的场景。他们还希望将这种技术应用于更复杂的脉冲响应和更大的场景,例如整个建筑物甚至城镇或城市。
Gan 补充道:“这项新技术可能会为在元宇宙应用程序中创建多模式沉浸式体验带来新的机会。”
“我的团队在使用机器学习方法来加速声学模拟或对现实世界场景的声学建模方面做了大量工作。马里兰大学计算机科学和电气与计算机工程系 Paul Chrisman Iribe 教授 Dinesh Manocha 表示,Chuang Gan 及其合著者的这篇论文显然是朝这个方向迈出的重要一步。工作。“特别是,本文介绍了一种很好的隐式表示,可以通过使用线性时不变系统对其进行建模来捕获声音在现实世界场景中的传播方式。这项工作可以在 AR/VR 以及现实世界场景理解方面有很多应用。”
这项工作得到了 MIT-IBM Watson AI 实验室和 Tianqiao and Chrissy Chen Institute 的部分支持。
323AI导航网发布