大型语言模型有助于解读临床记录

人工智能2年前 (2023)发布 wangzhan

4,091 0 11

6月29日消息：研究人员使用强大的深度学习模型从电子健康记录中提取重要数据，这有助于个性化医疗。

电子健康记录 (EHR) 需要一位新的公共关系经理。十年前，美国政府通过了一项法律，大力鼓励采用电子健康记录，旨在改善和简化护理。这些现已数字化的记录中的大量信息可用于回答超出临床试验范围的非常具体的问题：对于这种身高和体重的患者，这种药物的正确剂量是多少？具有特定基因组图谱的患者又如何呢？

不幸的是，大多数可以回答这些问题的数据都被困在医生的笔记中，充满了行话和缩写。使用当前技术，计算机很难理解这些注释——提取信息需要训练多个机器学习模型。为一家医院训练的模型在其他医院也效果不佳，并且训练每个模型都需要领域专家标记大量数据，这是一个耗时且昂贵的过程。

理想的系统将使用单一模型，该模型可以提取多种类型的信息，在多家医院运行良好，并从少量标记数据中学习。但如何呢？由电气工程和计算机科学博士生 Monica Agrawal 领导的麻省理工学院计算机科学和人工智能实验室 (CSAIL) 的研究人员认为，为了理清数据，他们需要调用更大的东西：大型语言模型。为了提取重要的医疗信息，他们使用了一个非常大的 GPT-3 风格的模型来完成诸如扩展过多的术语和首字母缩略词以及提取药物治疗方案等任务。

例如，系统接受一个输入（在本例中是临床笔记），“提示”模型提出有关该笔记的问题，例如“展开此缩写，CTA”。系统返回诸如“听诊清晰”之类的输出，而不是 CT 血管造影。该团队表示，提取这些干净数据的目的是最终实现更个性化的临床建议。

可以理解的是，医疗数据是一种很难自由导航的资源。由于数据使用限制，使用公共资源测试大型模型的性能有很多繁文缛节，因此团队决定自行收集。他们使用一组简短的、公开的临床片段拼凑了一个小数据集，以评估大型语言模型的提取性能。

“开发一个单一的通用临床自然语言处理系统来满足每个人的需求并对健康数据集中的巨大变化具有鲁棒性是一项挑战。因此，直到今天，大多数临床记录还没有用于下游分析或电子健康记录中的实时决策支持。这些大型语言模型方法可能会改变临床自然语言处理，”麻省理工学院电气工程和计算机科学教授、CSAIL 和医学工程与科学研究所的首席研究员、有关这项工作的论文的指导作者 David Sontag 说道。它将在自然语言处理经验方法会议上提出。“研究团队在零样本临床信息提取方面取得的进展使得扩展成为可能。即使您有数百个不同的用例，也没有问题 – 您只需几分钟的工作就可以构建每个模型，而不必为该特定任务标记大量数据。”

例如，在完全没有任何标签的情况下，研究人员发现这些模型在扩展超载首字母缩略词时可以达到 86% 的准确率，并且该团队开发了额外的方法将其进一步提高到 90% 的准确率，而且仍然不需要标签。

被监禁在电子病历中

长期以来，专家们一直在稳步构建大型语言模型 (LLM)，但随着 GPT-3广泛覆盖的完成句子的能力，它们突然成为主流。这些法学硕士接受来自互联网的大量文本的训练，以完成句子并预测下一个最可能的单词。

虽然之前的较小模型（例如早期的 GPT 迭代或 BERT）在提取医疗数据方面取得了良好的性能，但它们仍然需要大量的手动数据标记工作。

例如，注释“pt will dc vanco due to n/v”表示该患者 (pt) 正在服用抗生素万古霉素 (vanco)，但出现恶心和呕吐 (n/v)，严重程度足以使护理团队停止使用(dc) 药物。该团队的研究避免了为每项任务训练单独的机器学习模型的现状（从记录中提取药物、副作用、消除常见缩写的歧义等）。除了扩展缩写之外，他们还研究了其他四项任务，包括模型是否可以解析临床试验并提取详细信息丰富的药物治疗方案。

“之前的研究表明，这些模型对提示的精确措辞很敏感。我们技术贡献的一部分是一种格式化提示的方法，以便模型以正确的格式提供输出，”CSAIL 博士生兼论文作者 Hunter Lang 说道。“对于这些提取问题，存在结构化的输出空间。输出空间不仅仅是一个字符串。它可以是一个列表。它可以是原始输入的引用。因此，除了自由文本之外，还有更多的结构。我们研究贡献的一部分是鼓励模型为您提供结构正确的输出。这大大减少了后处理时间。”

该方法不能应用于医院现成的健康数据：这需要通过开放互联网将私人患者信息发送给 OpenAI 等法学硕士提供商。作者表明，可以通过将模型提炼成可以在现场使用的较小模型来解决这个问题。

该模型有时就像人类一样，并不总是受制于事实。潜在问题可能如下所示：假设您正在询问某人服药的原因。如果没有适当的护栏和检查，如果注释中没有明确提及任何内容，模型可能只会输出该药物的最常见原因。这导致团队努力迫使模型从数据中提取更多的引用，并减少自由文本。

该团队未来的工作包括扩展到英语以外的语言，创建用于量化模型中不确定性的其他方法，以及使用开源模型获得类似的结果。

微软 AI 主管、AI 前执行董事 Sadid Hasan 表示：“与一般领域文本相比，隐藏在非结构化临床记录中的临床信息面临着独特的挑战，主要是因为大量使用首字母缩略词，以及不同医疗机构使用的文本模式不一致。” CVS Health 的工作人员，他没有参与这项研究。“为此，这项工作提出了一个有趣的范例，利用通用领域大语言模型的力量来完成几个重要的零/少样本临床 NLP 任务。具体来说，所提出的法学硕士引导式提示设计可以生成更结构化的输出，可以通过迭代地利用模型生成的伪标签来进一步开发更小的可部署模型。”

“人工智能在过去五年中加速发展，这些大型模型可以预测情境化建议，其好处会波及各个领域，例如建议新药物配方、理解非结构化文本、代码推荐或创作受启发的艺术作品。任何数量的人类艺术家或风格。”Parminder Bhatia 说道，他曾任 AWS Health AI 机器学习负责人，目前担任 AWS AI 实验室利用大型语言模型的低代码应用程序机器学习负责人。

作为麻省理工学院安利捷健康机器学习诊所的一部分，Agrawal、Sontag 和 Lang 与麻省理工学院助理教授兼 CSAIL 首席研究员 Yoon Kim 以及来自明斯特大学的访问博士生 Stefan Hegselmann 一起撰写了这篇论文。第一作者 Agrawal 的研究得到了武田奖学金、麻省理工学院德什潘德技术创新中心和 MLA@CSAIL 计划的支持。

323ai导航网发布