6月29日最新消息:Stefanie Jegelka 致力于了解机器学习模型的行为方式,以帮助研究人员为生物学、计算机视觉、优化等领域的应用构建更强大的模型。
当深度学习模型部署在现实世界中时,也许是为了检测信用卡活动中的金融欺诈或识别医学图像中的癌症,它们通常能够超越人类。
但这些深度学习模型到底在学习什么?例如,经过训练以在临床图像中发现皮肤癌的模型是否真的了解癌组织的颜色和纹理,或者是否标记了一些其他特征或模式?
这些强大的机器学习模型通常基于人工神经网络,该网络可以拥有数百万个处理数据以进行预测的节点。由于它们的复杂性,研究人员经常将这些模型称为“黑匣子”,因为即使是构建它们的科学家也不了解幕后发生的一切。
Stefanie Jegelka 对这种“黑匣子”解释并不满意。Jegelka 是麻省理工学院电气工程和计算机科学系新任副教授,他正在深入研究深度学习,以了解这些模型可以学习什么、它们如何表现,以及如何将某些先验信息构建到这些模型中。
“归根结底,深度学习模型将学到什么取决于很多因素。但建立与实践相关的理解将有助于我们设计更好的模型,也有助于我们了解模型内部发生的情况,以便我们知道何时可以部署模型,何时不能部署模型。这一点至关重要。”Jegelka 说,他也是计算机科学和人工智能实验室 (CSAIL) 以及数据、系统和社会研究所 (IDSS) 的成员。
Jegelka 对输入数据采用图形形式时优化机器学习模型特别感兴趣。图数据带来了特定的挑战:例如,数据中的信息既包含有关各个节点和边的信息,也包含结构(什么与什么相连)。此外,图具有机器学习模型需要尊重的数学对称性,因此,例如,相同的图总是会导致相同的预测。将这种对称性构建到机器学习模型中通常并不容易。
以分子为例。分子可以表示为图,其顶点对应于原子,边对应于它们之间的化学键。制药公司可能希望利用深度学习来快速预测许多分子的特性,从而缩小他们必须在实验室进行物理测试的数量。
Jegelka 研究构建数学机器学习模型的方法,该模型可以有效地将图形数据作为输入并输出其他内容,在本例中是对分子化学性质的预测。这是特别具有挑战性的,因为分子的特性不仅由其内部的原子决定,还由它们之间的连接决定。
图机器学习的其他示例包括流量路由、芯片设计和推荐系统。
由于用于训练模型的数据通常与模型在实践中看到的数据不同,设计这些模型变得更加困难。也许该模型是使用小分子图或流量网络进行训练的,但部署后看到的图更大或更复杂。
在这种情况下,研究人员可以期望这个模型学习什么?如果现实世界的数据不同,它在实践中是否仍然有效?
“由于计算机科学中的一些困难问题,你的模型将无法学习所有内容,但你能学到什么和不能学到什么取决于你如何设置模型,”杰格尔卡说。
她通过将对算法和离散数学的热情与对机器学习的兴奋结合起来来解决这个问题。
从蝴蝶到生物信息学
Jegelka 在德国的一个小镇长大,高中时就对科学产生了兴趣;一位支持她的老师鼓励她参加国际科学竞赛。她和来自美国和香港的队友因用三种语言创建的有关蝴蝶的网站而获奖。
“在我们的项目中,我们在当地一所应用科学大学用扫描电子显微镜拍摄了翅膀的图像。我还有机会在梅赛德斯奔驰使用高速摄像机——这种摄像机通常拍摄内燃机——我用它来捕捉蝴蝶翅膀运动的慢动作视频。那是我第一次真正接触科学和探索,”她回忆道。
出于对生物学和数学的兴趣,耶格尔卡决定在蒂宾根大学和德克萨斯大学奥斯汀分校学习生物信息学。作为一名本科生,她有一些进行研究的机会,包括在乔治城大学的计算神经科学实习,但她不确定该从事什么职业。
当她回到大学读最后一年时,杰格尔卡搬到了两个室友那里,他们在图宾根的马克斯·普朗克研究所担任研究助理。
“他们正在研究机器学习,这对我来说听起来真的很酷。我必须写学士论文,所以我问研究所他们是否有适合我的项目。我开始在马克斯·普朗克研究所从事机器学习工作,我喜欢它。我在那里学到了很多东西,这是一个进行研究的好地方,”她说。
她留在马克斯普朗克研究所完成硕士论文,然后在马克斯普朗克研究所和瑞士联邦理工学院攻读机器学习博士学位。
在攻读博士学位期间,她探索了离散数学的概念如何帮助改进机器学习技术。
学习的教学模式
Jegelka 对机器学习了解得越多,她对理解模型如何行为以及如何引导这种行为的挑战就越感兴趣。
“你可以利用机器学习做很多事情,但前提是你拥有正确的模型和数据。它不仅仅是一个黑匣子,只要你把它扔到数据上它就可以工作。你实际上必须考虑它、它的属性以及你希望模型学习和做什么,”她说。
在加州大学伯克利分校完成博士后后,杰格尔卡迷上了研究,并决定在学术界谋求职业生涯。她于 2015 年加入麻省理工学院,担任助理教授。
“我真正喜欢麻省理工学院的一点是,从一开始,人们就非常关心研究和创造力。这就是我对麻省理工学院最欣赏的一点。这里的人们非常重视研究的原创性和深度,”她说。
对创造力的关注使 Jegelka 能够探索广泛的主题。
她与麻省理工学院的其他教师合作,研究生物学、成像、计算机视觉和材料科学中的机器学习应用。
但真正推动 Jegelka 的是探索机器学习的基础知识,以及最近的鲁棒性问题。通常,模型在训练数据上表现良好,但当部署在略有不同的数据上时,其性能会下降。她说,将先验知识构建到模型中可以使其更加可靠,但了解模型需要哪些信息才能成功以及如何构建模型并不那么简单。
她还在探索提高图像分类机器学习模型性能的方法。
图像分类模型无处不在,从手机上的面部识别系统到社交媒体上识别虚假帐户的工具。这些模型需要大量数据进行训练,但由于人类手动标记数百万张图像的成本很高,因此研究人员通常使用未标记的数据集来预训练模型。
然后,这些模型在稍后针对特定任务进行微调时,会重用它们所学到的表示。
理想情况下,研究人员希望模型在预训练期间尽可能多地学习,以便它可以将这些知识应用到下游任务中。但在实践中,这些模型通常只学习一些简单的相关性——比如一张图像有阳光,一张图像有阴影——并使用这些“快捷方式”对图像进行分类。
“我们证明这是‘对比学习’中的一个问题,无论是理论上还是实证上,‘对比学习’都是预训练的标准技术。但我们还表明,您可以通过修改向模型显示的数据类型来影响模型将学习表示的信息类型。这是了解模型在实践中实际用途的一步,”她说。
研究人员仍然不了解深度学习模型内部发生的一切,也不了解他们如何影响模型学习内容及其行为的细节,但 Jegelka 期待继续探索这些主题。
“在机器学习中,我们通常会看到实践中发生的事情,并尝试从理论上理解它。这是一个巨大的挑战。您希望建立与您在实践中看到的相匹配的理解,以便您可以做得更好。
我们对这一点的理解才刚刚开始,”她说在实验室之外,杰格尔卡热爱音乐、艺术、旅行和骑自行车。但现在,她喜欢把大部分空闲时间花在和学龄前的女儿在一起。
323ai导航网发布