这种机器学习方法可以帮助机器人场景理解、图像编辑或在线推荐系统。

例如,在厨房工作时操纵物体的机器人将受益于了解哪些物品是由相同材料组成的。有了这些知识,机器人就会知道无论是从柜台阴暗的角落拿起一小块黄油,还是从明亮的冰箱内拿起整根黄油,都要施加类似的力。
识别场景中由相同材质组成的对象(称为材质选择)对于机器来说是一个特别具有挑战性的问题,因为材质的外观可能会根据对象的形状或照明条件而发生巨大变化。
麻省理工学院和 Adobe 研究中心的科学家们已经朝着解决这一挑战迈出了一步。他们开发了一种技术,可以识别图像中代表给定材料的所有像素,该材料显示在用户选择的像素中。
即使物体具有不同的形状和大小,该方法也是准确的,并且他们开发的机器学习模型不会受到可能使相同材料看起来不同的阴影或照明条件的欺骗。
尽管他们仅使用“合成”数据(这些数据是由计算机创建的,可修改 3D 场景以生成许多不同的图像)来训练模型,但该系统在以前从未见过的真实室内和室外场景上可以有效地工作。该方法也可用于视频;一旦用户识别出第一帧中的像素,模型就可以识别视频其余部分中由相同材料制成的物体。

除了在机器人场景理解中的应用之外,该方法还可用于图像编辑或合并到计算系统中,以推断图像中材料的参数。它还可以用于基于材料的网络推荐系统。(例如,购物者可能正在寻找由特定类型面料制成的衣服。)
“了解您正在与什么材料进行交互通常非常重要。尽管两个物体可能看起来相似,但它们可以具有不同的材料属性。我们的方法可以促进选择图像中由相同材料制成的所有其他像素,”电气工程和计算机科学研究生、该技术论文的主要作者 Prafull Sharma说道。
Sharma 的合著者包括 Adobe Research 的研究科学家 Julien Philip 和 Michael Gharbi;资深作者 William T. Freeman,电气工程和计算机科学 Thomas 和 Gerd Perkins 教授,计算机科学和人工智能实验室 (CSAIL) 成员;Frédo Durand,电气工程和计算机科学教授,CSAIL 成员;以及 Adobe Research 的研究科学家 Valentin Deschaintre。该研究将在 SIGGRAPH 2023 会议上展示。
一种新方法
现有的材料选择方法很难准确识别代表相同材料的所有像素。例如,某些方法专注于整个对象,但一个对象可以由多种材料组成,例如带有木扶手的椅子和皮革座椅。其他方法可能会利用一组预定的材料,但这些方法通常具有广泛的标签,例如“木材”,尽管事实上木材有数千种品种。
相反,Sharma 和他的合作者开发了一种机器学习方法,可以动态评估图像中的所有像素,以确定用户选择的像素与图像的所有其他区域之间的材料相似性。如果图像包含一张桌子和两把椅子,并且椅子腿和桌面由相同类型的木材制成,他们的模型可以准确识别那些相似的区域。
在研究人员开发出一种人工智能方法来学习如何选择相似材料之前,他们必须克服一些障碍。首先,现有的数据集不包含足够精细标记的材料来训练他们的机器学习模型。研究人员渲染了他们自己的室内场景合成数据集,其中包括 50,000 张图像和随机应用于每个对象的 16,000 多种材质。
“我们想要一个数据集,其中每种类型的材料都被独立标记,”夏尔马说。
他们利用手中的合成数据集训练了一个机器学习模型,用于识别真实图像中的相似材料,但失败了。研究人员意识到分布转移是罪魁祸首。当模型在合成数据上进行训练,但在与训练集有很大不同的真实数据进行测试时会失败,就会发生这种情况。
为了解决这个问题,他们在预训练的计算机视觉模型之上构建了模型,该模型已经看到了数百万张真实图像。他们通过利用该模型已经学到的视觉特征来利用该模型的先验知识。
“在机器学习中,当你使用神经网络时,通常它是一起学习表示和解决任务的过程。我们已经解决了这个问题。预训练模型为我们提供了表示,然后我们的神经网络只专注于解决任务,”他说。
解决相似性问题
研究人员的模型将通用的、预先训练的视觉特征转换为特定于材料的特征,并且它以对物体形状或变化的照明条件具有鲁棒性的方式实现这一点。

然后,该模型可以计算图像中每个像素的材料相似度得分。当用户单击某个像素时,模型会计算出每个其他像素在外观上与查询的接近程度。它生成一个地图,其中每个像素按照从 0 到 1 的相似度进行排序。
“用户只需单击一个像素,然后模型就会自动选择具有相同材质的所有区域,”他说。
由于模型会输出每个像素的相似度分数,因此用户可以通过设置阈值(例如 90% 相似度)来微调结果,并接收突出显示这些区域的图像地图。该方法也适用于跨图像选择——用户可以选择一个图像中的像素,并在单独的图像中找到相同的材料。
在实验中,研究人员发现他们的模型可以比其他方法更准确地预测包含相同材料的图像区域。当他们测量预测与真实情况(即由相同材料组成的图像的实际区域)相比的情况时,他们的模型的匹配精度约为 92%。
未来,他们希望增强模型,使其能够更好地捕捉图像中物体的精细细节,这将提高他们方法的准确性。
“丰富的材料有助于我们生活的世界的功能和美丽。但计算机视觉算法通常会忽略材料,而是重点关注物体。康奈尔鲍尔斯计算与信息科学学院院长兼计算机科学教授 Kavita Bala(未参与这项工作)表示:“这篇论文对于在各种具有挑战性的条件下识别图像和视频中的材料做出了重要贡献。” 。“这项技术对于最终消费者和设计师来说非常有用。例如,房主可以想象重新装饰沙发或更换房间地毯等昂贵的选择可能会出现,并且可以根据这些可视化对他们的设计选择更有信心。”
323ai导航网发布