
强大的机器学习模型被用来帮助人们解决棘手的问题,例如识别医学图像中的疾病或检测自动驾驶车辆的道路障碍物。但机器学习模型可能会犯错误,因此在高风险环境中,人类知道何时信任模型的预测至关重要。
不确定性量化是提高模型可靠性的一种工具;该模型会生成一个分数以及预测,表示预测正确的置信度。虽然不确定性量化可能很有用,但现有方法通常需要重新训练整个模型才能赋予其这种能力。训练涉及向模型展示数百万个示例,以便它可以学习任务。然后,重新训练需要数百万个新的数据输入,这可能是昂贵且难以获得的,并且还使用大量的计算资源
麻省理工学院和 MIT-IBM Watson AI 实验室的研究人员现已开发出一种技术,使模型能够执行更有效的不确定性量化,同时使用比其他方法少得多的计算资源,并且不需要额外的数据。他们的技术不需要用户重新训练或修改模型,对于许多应用程序来说足够灵活。
该技术涉及创建一个更简单的配套模型,帮助原始机器学习模型估计不确定性。这个较小的模型旨在识别不同类型的不确定性,这可以帮助研究人员深入了解预测不准确的根本原因。
“不确定性量化对于机器学习模型的开发人员和用户都至关重要。开发人员可以利用不确定性测量来帮助开发更强大的模型,而对于用户来说,它可以在现实世界中部署模型时增加另一层信任和可靠性。我们的工作为不确定性量化提供了一种更灵活、更实用的解决方案。”电气工程和计算机科学研究生、该技术论文的主要作者沉茂豪说道。
Shen 与 Yuheng Bu 一起撰写了这篇论文,Yuheng Bu 是电子研究实验室 (RLE) 的前博士后,现在是佛罗里达大学的助理教授。Prasanna Sattigeri、Soumya Ghosh 和 Subhro Das,MIT-IBM Watson AI 实验室的研究人员;高级作者 Gregory Wornell 是住友工程学教授,领导信号、信息和算法实验室 RLE,并且是 MIT-IBM Watson AI 实验室的成员。该研究将在 AAAI 人工智能会议上公布。
量化不确定性
在不确定性量化中,机器学习模型会为每个输出生成一个数值分数,以反映其对该预测准确性的信心。通过从头开始构建新模型或重新训练现有模型来整合不确定性量化通常需要大量数据和昂贵的计算,这通常是不切实际的。更重要的是,现有方法有时会产生意想不到的后果,即降低模型预测的质量。
因此,麻省理工学院和麻省理工学院-IBM 沃森人工智能实验室的研究人员将注意力集中在以下问题上:给定一个预训练模型,如何使其能够执行有效的不确定性量化?
他们通过创建一个更小、更简单的模型(称为元模型)来解决这个问题,该模型附加到更大的预训练模型,并使用更大模型已经学会的特征来帮助其进行不确定性量化评估。
“元模型可以应用于任何预训练模型。最好能够访问模型的内部结构,因为我们可以获得有关基本模型的更多信息,但如果您只有最终输出,它也将起作用。它仍然可以预测置信度得分,”Sattigeri 说。
他们设计元模型以使用包含两种类型的不确定性的技术来生成不确定性量化输出:数据不确定性和模型不确定性。数据不确定性是由损坏的数据或不准确的标签引起的,只能通过修复数据集或收集新数据来减少。在模型不确定性中,模型不确定如何解释新观察到的数据,并且可能做出错误的预测,很可能是因为它没有看到足够的类似训练示例。在部署模型时,这个问题是一个特别具有挑战性但常见的问题。在现实环境中,他们经常遇到与训练数据集不同的数据。
“当您在新环境中使用该模型时,您决策的可靠性是否发生了变化?你需要某种方式来确定它是否在这种新制度下发挥作用,或者你是否需要为这种特定的新环境收集训练数据,”沃内尔说。
验证量化
一旦模型产生不确定性量化分数,用户仍然需要保证分数本身的准确性。研究人员通常通过创建较小的数据集(从原始训练数据中保留)来验证准确性,然后在保留的数据上测试模型。然而,这种技术在测量不确定性量化方面效果不佳,因为该模型可以实现良好的预测精度,但仍然过于自信,沉说。
他们通过向验证集中的数据添加噪声来创建一种新的验证技术 – 这种噪声数据更像是可能导致模型不确定性的分布外数据。研究人员使用这个嘈杂的数据集来评估不确定性量化。
他们通过观察元模型捕获各种下游任务的不同类型的不确定性(包括分布外检测和错误分类检测)的能力来测试他们的方法。他们的方法不仅优于每个下游任务中的所有基线,而且实现这些结果所需的训练时间也更少。
这项技术可以帮助研究人员启用更多机器学习模型来有效地执行不确定性量化,最终帮助用户就何时信任预测做出更好的决策。
沉说,展望未来,研究人员希望使他们的技术适应更新类型的模型,例如结构与传统神经网络不同的大型语言模型。
这项工作部分由 MIT-IBM Watson AI 实验室和美国国家科学基金会资助。
323ai导航网发布