随着人工智能 (AI)驱动的消费聊天机器人的出现,能够生成类似人类的文本,这是一个令人振奋的消息。是旧金山科技公司 在去年11月发布的第一个基于大型语言模型的聊天机器人,在发布一周内就有数百万人使用。到今年2月,的月用户数预估达到1亿。
目前已有大量聊天机器人问世,其中最著名的当数旗下和谷歌拥有的Bard。这两个聊天机器人都有令人惊讶的研究和写作能力,通过生成式人工智能产生文本。
专家的担忧
聊天机器人不仅让人惊叹,还引发了大量担忧。关于聊天机器人预示着什么的争论正在激烈进行,包括AI对于部分工作的替代,以及对劳动者的影响。对于医疗从业者和研究人员来说,这场争论的利害关系尤为重大——考虑到医护人员身负病人生命的重担,在工作中引入聊天机器人可能并非明智之举。
因为聊天机器人有责任为患者提供医疗服务。如果让聊天机器人在他们的工作中扮演某种角色,可能会被证明是鲁莽的。而患者现在也不得不考虑是否信任聊天机器人,以及他们的医生是否会使用人工智能工具。但是,谷歌每年有3000亿次关于医疗话题的搜索,在医疗领域使用聊天机器人可能会成为一股新的颠覆性力量。
科技行业本身的许多人也有同样的担忧。今年 3 月,1000 多名科技行业领袖发表公开信,呼吁暂停人工智能开发。不久之后,人工智能促进协会的领导人发出了更强烈的警告。就连被称为人工智能“教父“的加拿大研究者 表示,他担心像 这样的系统可能很快就会比我们更聪明、更能说、更能写。
亟需机构批准
直到几个月前,医疗聊天机器人还是人工智能研究中的一个小众领域。去年3月,谷歌针对具有回答医疗问题的专业能力的Med-PaLM应用程序召开新闻发布会,当时仅有三名记者出席,但他们都来自 等专业健康和科学期刊。尽管如此,在价值1400亿美元的全球医疗保健IT行业中,人们对人工智能辅助的生成式聊天机器人越来越感兴趣,并正在开发其大量用途。这些用途包括基础临床记录、协助多种诊断,以及为医学成像过程和研究目的生成合成健康数据。
在美国食品和药物管理局 (FDA) ,官员们正在努力跟上对包括聊天机器人在内的人工智能设备在医疗领域的步伐,对其蓬勃发展进行监控和监管。在2022年9月发布的一份长达26 页的指南中,他们指出,为患者或护理人员(相对于获得许可的医疗服务提供者)提供支持或临床建议的“软件功能”符合”聊天机器人”的定义,属于需要美国食品及药物管理局审查和批准的医疗设备。只有在人类完全控制软件功能的情况下,这些产品才能避开FDA的审查。医疗服务提供者必须“独立审查软件提出的建议的依据”,这样他们就不会主要依赖基于人工智能的建议,而是根据自己的判断做出临床决策。
简而言之,无论何时,经过医学培训的聊天机器人或其他人工智能辅助设备要想独立于有执照的临床医生进行操作,都必须经过FDA的审查和批准。
美国食品和药物管理局2022年9月发布的指南早于及其竞争对手的公开发布,但医疗聊天机器人的开发现在已经非常先进。去年3月,谷歌聊天机器人研究员Vivek 在接受记者采访时说,通过将“非常强大的语言模型”和“非常深厚的医疗领域专业知识”相结合,公司开发出了一款专为医疗用途定制的复杂聊天机器人。
在 上进行训练,
是一个医学选择题语料库,包括医学考试、长篇答案和专家人工评估。
表示,谷歌的Med-PaLM(PaLM是Path- ways Model的缩写,即路径语言模型)是一种跨越——Med-PaLM可以轻松通过美国医学执照考试,第一版得分率为67%,最新版本Med-PaLM 2则达到85%,被谷歌称为“专家级”医生水平,并被认为在医学领域有巨大的应用潜力,包括知识检索、临床决策支持、关键结果总结和基础病人分诊。
解释说,由于谷歌技术人员团队的不断微调,Med-PaLM所掌握的医学知识对所谓“医疗领域的细微差别”越来越敏感。他补充说,建立医学相关模型的工程师需要正确的医学信息训练数据集:“在训练这些模型时,你需要教会模型在哪里寻找答案。”
医疗数据短缺
如上文图中所示,Med-PaLM由谷歌上进行训练,这是七个标准化医疗数据集的组合,其中包括大量的医疗问题和答案。谷歌的数据库也在其中,该数据库包含3375个用户经常搜索的医疗问题。总体而言,PaLM 的训练语料库由7800亿个“标记”组成,代表了网页、维基百科文章、源代码、社交媒体对话、新闻文章和书籍的混合体。
即便如此,PaLM 的知识库仍有局限性,谷歌健康研究负责人Alan 承认道。即使是最先进的互联网挖掘技术也无法访问经同行评审的医学文献,因为世界上许多出版商都对这些文献设置了付费壁垒。对于“采用公开文献数据的谷歌”,很多健康研究无法进入 Med-PaLM,因为很少有医学期刊是完全开放获取的。
当被问及谷歌计划如何为其人工智能聊天机器人获取大量在开放互联网上无法获得的重要医学文献时, 表示不发表评论。“我们并不认为自己在这一领域的研究值得夸赞”,他表示。这或许也是Med-PaLM尚未开放广泛使用的原因。尽管谷歌在4月份宣布计划将其提供给特定的客户群进行内部测试。“这个系统可能听起来很有道理,但却存在非常微妙的(知识)差距。”
依靠医疗人工智能诊断病人的一个主要隐患是无法获得诊断的证据基础。FDA发布的指导文件警告提到,“(人工智能)可能会遗漏禁忌症或针对特定病人的警告”。要想让人工智能在医疗领域得到更广泛的应用,大型语言模型做出的任何诊断都应当提供科学依据,很可能包括研究文章的引文。
这一点说来容易做来难,英矽智能创始人兼首席执行官Alex 博士表示。英矽智能以利用人工智能技术进行药物发现和生物标记开发见长。博士警告说,“这些系统的培训材料必须包括超高质量、经同行评审的全文出版物,而目前的情况并非如此。如果不能全面获取高质量的已发表科学论文,人工智能聊天机器人就无法做出准确的医疗诊断。”他指出, 是根据从互联网上搜索到的文本和资料进行训练的,在他看来,这些文本和资料需要经过人类审核和监督。要想在医疗大语言模型系统领域获得成功,“最终需要最新、最高质量的同行评审科学期刊。因此,真正的赢家可能是这些期刊的所有者”。
保护患者安全
是耶鲁大学医学院的神经学家,也是耶鲁纽黑文卫生系统临床伦理中心的首任主任。他还警告说,尽管 最初掀起了一股热潮,但医疗聊天机器人的发展之路可能会漫长而停滞不前。解释道,“我使用过 ,它的沟通能力和详细程度让我印象深刻。它比我以前见过的任何人工智能或聊天机器人技术都要高出一筹,在临床应用中大有可为。但我们必须要问,‘当病人和临床医生开始向它寻求指导时,会发生什么?’”
为了回答这个问题,最近通过描述病人和询问诊断向提出了一系列临床问题。他回忆道,“它给出的回答就像一个熟读医书、对临床有些漠不关心的医学生一样。它的知识可能是双刃剑。”
为了保护病人的安全,建议为大型医学语言模型建立以知情同意为中心的医疗管理框架。他认为,当临床医生使用这些工具时,应该对其进行管理,并对其使用情况进行仔细的临床监督。他还认为,这些工具必须包括引文,临床医生和人工智能科学家需要在制定这些工具时密切合作,“我们正处于医疗保健模式转变的边缘,但我认为我们还没有到那一步。”
开发商也呼吁人们谨慎行事。该公司在一封电子邮件中告知 期刊称,其模型不应被用于医疗诊断、分流或处理涉及生命安全的问题。在2023 年描述 的论文中,的研究人员坦承“使用 LLM 诊断或治疗疾病的潜在危害”。
的研究人员表示,由于担心大型语言模型与事实不符,一些人呼吁采取控制措施,其中可能包括要求人工智能提供商对大型语言模型施加使用限制识别人工智能生成的内容、要求在发布前提供“人格证明”,以及制定“被广泛采用的数字来源标准”。
Meta公司基础人工智能研究部门的三位管理总监之一、蒙特利尔麦吉尔大学教授 表示“人工智能只是一种工具”。强调说,由于像 这样的大型语言模型所使用的数据几乎不包含真正可靠的临床科学知识,在其训练数据集涵盖研究人员可以获得的全部科学知识之前,这些模型的临床实用性仍然有限。“对这件事情的可行性,我至今还没有信心。”
生成式人工智能系统还需要应对临床不确定性这一棘手问题。表示,“我们需要一种表示怀疑的方法。”他认为,在找到这种方法之前,怀疑本身将主导医疗聊天机器人的发展前景。
参考资料:
[1] , P. AI : are they safe to talk to ?. Nat Med (2023).
关于英矽智能
英矽智能是一家由生成式人工智能驱动的药物研发公司,通过下一代人工智能系统连接生物学、生成化学和临床试验分析,利用深度生成模型、强化学习、转换模型等现代机器学习技术,构建强大且高效的人工智能药物研发平台,识别全新靶点并生成具有特定属性分子结构的候选药物。英矽智能聚焦癌症、纤维化、免疫、中枢神经系统疾病、衰老相关疾病等未被满足医疗需求领域,推进并加速创新药物研发。更多信息,请访问网站:
商务合作,请联系 bd@.ai
媒体垂询,请联系 pr@.ai