研究人员发现了一种属性,可以帮助计算机视觉模型学习以更稳定、可预测的方式表示视觉世界。
想象一下坐在公园的长椅上,看着有人走过。虽然场景可能会随着人的行走而不断变化,但人脑可以随着时间的推移将动态视觉信息转化为更稳定的表示。这种能力被称为感知矫正,可以帮助我们预测行走者的轨迹。
与人类不同,计算机视觉模型通常不会表现出感知直线性,因此它们学会以高度不可预测的方式表示视觉信息。但如果机器学习模型具有这种能力,它们可能能够更好地估计物体或人将如何移动。
麻省理工学院的研究人员发现,一种特定的训练方法可以帮助计算机视觉模型学习更直观的感知表征,就像人类一样。训练涉及向机器学习模型展示数百万个示例,以便它可以学习任务。
研究人员发现,使用一种称为对抗性训练的技术来训练计算机视觉模型,可以降低模型对图像中添加的微小错误的反应,从而提高模型的感知直线度。
该团队还发现,感知直线度受到训练模型执行的任务的影响。与那些训练执行更细粒度任务(例如将图像中的每个像素分配给一个类别)的模型相比,经过训练来执行抽象任务(例如对图像进行分类)的模型可以学习更多感知上的直接表示。
例如,模型中的节点具有代表“狗”的内部激活,这使得模型可以在看到狗的任何图像时检测到狗。当图像发生微小变化时,感知上的直接表示会保留更稳定的“狗”表示。这使它们更加坚固。
通过更好地理解计算机视觉中的感知直线度,研究人员希望发现可以帮助他们开发做出更准确预测的模型的见解。例如,该属性可能会提高自动驾驶汽车的安全性,自动驾驶汽车使用计算机视觉模型来预测行人、骑自行车者和其他车辆的轨迹。
Vasha DuTell 表示:“这里最重要的信息之一是,从生物系统(例如人类视觉)中汲取灵感,既可以让您深入了解某些事物为何以它们的方式工作,也可以激发改进神经网络的想法。”是麻省理工学院的博士后,也是一篇探索计算机视觉中感知直线性的论文的合著者。
与 DuTell 一起撰写该论文的还有电气工程与计算机科学系 (EECS) 研究生 Anne Harrington;Ayush Tewari,博士后;马克·汉密尔顿,研究生;Simon Stent,Woven Planet 研究经理;Ruth Rosenholtz,脑与认知科学系首席研究科学家,计算机科学与人工智能实验室(CSAIL)成员;资深作者 William T. Freeman,Thomas 和 Gerd Perkins 电气工程和计算机科学教授,CSAIL 成员。该研究正在国际学习表征会议上发表。
学习矫正
在阅读了纽约大学研究团队 2019 年发表的一篇关于人类感知直线度的论文后,杜泰尔、哈灵顿和他们的同事想知道这一特性是否也适用于计算机视觉模型。
他们着手确定不同类型的计算机视觉模型是否可以理顺他们学习的视觉表示。他们输入视频的每个模型帧,然后检查学习过程中不同阶段的表示。
如果模型的表示在视频帧中以可预测的方式发生变化,则该模型正在拉直。最后,它的输出表示应该比输入表示更稳定。
“你可以将这种表示想象成一条线,它一开始非常弯曲。拉直模型可以从视频中提取曲线,并通过处理步骤将其拉直。”杜特尔解释道。
他们测试的大多数模型都没有变直。在少数这样做的人中,那些最有效地矫正的人已经使用称为对抗性训练的技术接受了分类任务的训练。
对抗性训练涉及通过稍微改变每个像素来巧妙地修改图像。虽然人类不会注意到差异,但这些微小的变化可能会欺骗机器,从而对图像进行错误分类。对抗性训练使模型更加稳健,因此不会被这些操作所欺骗。
哈林顿解释说,因为对抗性训练教会模型对图像的轻微变化反应较小,这有助于它学习随着时间的推移更可预测的表示。
“人们已经有了这样的想法,即对抗性训练可能会帮助你让你的模型更像人类,很有趣的是看到这种情况延续到人们之前没有测试过的另一个属性上,”她说。
但研究人员发现,经过对抗性训练的模型只有在接受广泛任务(例如将整个图像分类)的训练时才能学会拉直。负责分割的模型(将图像中的每个像素标记为某个类别)并没有变直,即使它们接受了对抗性训练。
一致的分类
研究人员通过向这些图像分类模型展示视频来测试它们。他们发现,学习了更直观的感知表征的模型往往能够更一致地正确分类视频中的对象。
“对我来说,令人惊讶的是,这些经过对抗性训练的模型,甚至从未看过视频,也从未接受过时间数据的训练,仍然表现出一定程度的拉直,”杜特尔说。
她解释说,研究人员并不确切知道对抗性训练过程如何使计算机视觉模型变得更直,但他们的结果表明,更强的训练方案会使模型更直。
在这项工作的基础上,研究人员希望利用他们学到的知识来创建新的训练方案,明确赋予模型这种属性。他们还想更深入地研究对抗性训练,以了解为什么这个过程有助于模型矫正。
“从生物学的角度来看,对抗性训练不一定有意义。这不是人类理解世界的方式。关于为什么这种训练过程似乎可以帮助模型表现得更像人类,仍然存在很多问题,”哈林顿说。
“理解深度神经网络学习到的表征对于提高鲁棒性和泛化性等特性至关重要,”达纳法伯癌症研究所和哈佛医学院的助理教授比尔·洛特(Bill Lotter)说,他没有参与这项研究。“哈林顿等人。对处理自然视频时计算机视觉模型的表示如何随时间变化进行广泛的评估,表明这些轨迹的曲率根据模型架构、训练属性和任务的不同而变化很大。这些发现可以为改进模型的开发提供信息,并为生物视觉处理提供见解。”
“该论文证实,拉直自然视频是人类视觉系统所表现出的相当独特的特性。只有经过对抗训练的网络才会显示它,这与人类感知的另一个特征提供了有趣的联系:它对各种图像变换(无论是自然的还是人工的)的鲁棒性,”DeepMind 的研究科学家奥利维尔·赫纳夫(Olivier Hénaff)说,他没有参与这项研究。“即使是经过对抗性训练的场景分割模型也无法纠正其输入,这为未来的工作提出了重要问题:人类是否以与计算机视觉模型相同的方式解析自然场景?如何表示和预测运动物体的轨迹,同时保持对其空间细节的敏感?在将矫正假说与视觉行为的其他方面联系起来时,
该研究的部分资金来自丰田研究所、麻省理工学院 CSAIL METEOR 奖学金、国家科学基金会、美国空军研究实验室和美国空军人工智能加速器。
323ai导航网发布