新工具帮助人们选择评估人工智能模型的正确方法

人工智能2年前 (2023)发布 wangzhan

3,534 0 32

选择正确的方法可以让用户更准确地了解模型的行为方式，从而更好地正确解释其预测

当机器学习模型部署在现实世界中时，也许是为了标记 X 射线中的潜在疾病供放射科医生检查，人类用户需要知道何时信任模型的预测。

多色点的水平流从左到右进入一系列正方形，一个在另一个前面排列，就像四张直立的卡片一样。右侧的输出是有组织的点和线数组。

但机器学习模型是如此庞大和复杂，以至于即使是设计它们的科学家也无法准确理解模型如何进行预测。因此，他们创建了称为显着性方法的技术，旨在解释模型行为。

随着新方法的不断发布，麻省理工学院和 IBM 研究院的研究人员创建了一个工具来帮助用户为他们的特定任务选择最佳的显着性方法。他们开发了显着卡，提供方法如何运作的标准化文档，包括其优点和缺点以及帮助用户正确解释它的解释。

联合主要作者、电气专业研究生 Angie Boggust 解释说，他们希望，有了这些信息，用户可以针对他们正在使用的机器学习模型类型和模型正在执行的任务，有意识地选择合适的显着性方法。麻省理工学院的工程和计算机科学博士，也是麻省理工学院计算机科学和人工智能实验室 (CSAIL) 可视化小组的成员。

对人工智能研究人员和其他领域专家的采访表明，这些卡片可以帮助人们快速对不同方法进行并排比较，并选择适合任务的技术。选择正确的方法可以让用户更准确地了解模型的行为方式，从而更好地正确解释其预测。

“显着性卡旨在提供显着性方法的快速、一目了然的摘要，并将其分解为最关键的、以人为中心的属性。它们确实是为每个人设计的，从机器学习研究人员到试图了解使用哪种方法并第一次选择一种方法的非专业用户，”Boggust 说。

与 Boggust 一起撰写该论文的还有麻省理工学院博士后 Harini Suresh 的共同主要作者。Hendrik Strobelt，IBM 研究院高级研究科学家；John Guttag，麻省理工学院计算机科学和电气工程系 Dugald C. Jackson 教授；资深作者 Arvind Satyanarayan，麻省理工学院计算机科学副教授，领导 CSAIL 可视化小组。该研究将在 ACM 公平、问责和透明度会议上公布。

选择正确的方法

研究人员之前曾使用忠实度的概念来评估显着性方法。在这种情况下，忠实度体现了方法反映模型决策过程的准确程度。

但博格斯特解释说，忠诚并不是非黑即白的。一种方法可能在一次忠实度测试中表现良好，但在另一次测试中却失败了。由于有如此多的显着性方法和如此多的可能的评估，用户通常会选择一种方法，因为它很受欢迎或同事已经使用过它。

然而，选择“错误”的方法可能会产生严重的后果。例如，一种称为积分梯度的显着性方法将图像中特征的重要性与无意义的基线进行比较。与基线相比最重要的特征对模型的预测最有意义。此方法通常使用全 0 作为基线，但如果应用于图像，全 0 等同于黑色。

“它会告诉你，图像中的任何黑色像素都不重要，即使它们很重要，因为它们与无意义的基线相同。如果您查看 X 射线，这可能是一件大事，因为黑色对临床医生来说可能很有意义，”博格斯特说。

显着性卡通过 10 个以用户为中心的属性总结显着性方法的工作原理，可以帮助用户避免此类问题。这些属性捕获显着性的计算方式、显着性方法和模型之间的关系以及用户如何感知其输出。

例如，一个属性是超参数依赖性，它衡量显着性方法对用户指定参数的敏感程度。集成梯度的显着性卡将描述其参数以及它们如何影响其性能。使用该卡，用户可以快速看到默认参数（全 0 的基线）在评估 X 射线时可能会产生误导性结果。

这些卡片还可以通过揭示研究领域的空白而对科学家有用。例如，麻省理工学院的研究人员无法找到一种计算效率高但也可以应用于任何机器学习模型的显着性方法。

“我们能填补这个空白吗？是否有一种显着性方法可以同时完成这两件事？或者这两种想法在理论上可能是相互冲突的，”博格斯特说。

展示他们的卡片

创建几张卡片后，该团队与八位领域专家（从计算机科学家到不熟悉机器学习的放射科医生）进行了用户研究。在采访中，所有参与者都表示，简洁的描述帮助他们确定属性的优先顺序并比较方法。博格斯特说，尽管放射科医生不熟悉机器学习，但他能够理解这些卡片并使用它们参与选择显着性方法的过程。

采访中还透露了一些令人惊讶的事情。研究人员通常期望临床医生需要一种清晰的方法，这意味着它专注于医学图像中的特定对象。但这项研究中的临床医生实际上更喜欢医学图像中的一些噪音，以帮助他们减弱不确定性。