本文根据我们上个月组织的会议,并结合文献,总结使用要点。需要注意的是,通过不断吸收用户反馈,能力也日新月异,在一个月后的今天再用同样问题进行测试,其回答质量可能已突飞猛进();而且即使对于同样的(开源)问题,其在一天中不同时间或者面对不同用户提问,就像人类一样,很可能给出不尽一致但同样正确(或错误)的回答。
类似的对话式AI工具及其应用方兴未艾。就在本文发表前48小时,的BARD在遭受2月份演示“翻车”后开始向公众发出测试邀请。而微软旗下语音识别公司 推出基于GPT-4的AI临床笔记软件,有望极大提高医生临床诊治效率,我们将在下周发布其临床应用实例。
日常工作
语言能力超强
拥有出色的语言能力,可以根据指令为使用者进行语言润色。例如,它可以将一句简单、枯燥的语句改写成生动活泼的一段文字;而在面对长文时,它可以将其精简,而且不会丧失主要内容。
图1. 语言润色
图2. 文章精炼
还可以根据不同场景对文字内容进行润色。它既可以按照科普宣传口吻润色,也可以修改为严肃学术性文稿。此外,还可以根据不同主题撰写短文。
图3. 润色一篇虚构的与NEJM编辑沟通的邮件
可以根据文章内容建议多个题目。
图4. 拟定文章题目
临床科研
能够简要介绍某个领域,帮助提问者迅速了解该领域。尚缺乏基于目前研究成果提出科研假设的能力。因此,无论是探索研究方向,还是撰写科研基金申请书,可能有一定帮助,但最关键的部分还需要研究人员自己完成。
图5. 撰写的简要介绍
然而,对于初次在某个领域开展科研的研究者,提供的信息有一定帮助。针对提出的问题,可以给出研究方法和大方向等。
图6. 提供的研究思路
临床试验的原始数据纷繁复杂,在数据清洗方面表现不佳,不能准确抓取关键信息。但是如果研究者将全部数据提取完毕,则可以将所有数据完美地整合到表格中。
图7. 利用制作表格
可以编程,但由于其生物信息学编程训练较少,因此在此领域表现较差。此外,目前更能作为搜索引擎使用,特别是在涉及专业数据库内容时频频出错。而且,的数字运算能力较差,几乎无法使用。相比之下,面向 Plus用户开放的GPT-4运算能力有极大提高。
图8. 涉及数据库的错误答案
期刊立场
《新英格兰医学杂志》目前尚未给出关于的官方立场。但可以明确的是,不能成为共同作者,而且要求作者充分披露如何使用。《自然》杂志及其出版商 明确指出,任何大型语言模型工具都不会被接受为研究论文的署名作者,如果研究人员使用了此类工具,则应当在方法或致谢部分加以说明。《科学》杂志也强调:“未经编辑明确许可,由人工智能、机器学习或类似算法工具生成的文本不能在《科学》发表,所附的数字、图像或图形也不能由这些工具生成。此外,人工智能程序更不能成为《科学》论文的作者”。
尽管拥有强大的文稿撰写能力,甚至专业编辑也难以分辨作者是否假手,与何种其他技术一样,科学研究方法和结果必须保持公开和透明,这是科学赖以进步的基石。
临床实践
现实
英国3位研究者测试了在8个假设的感染场景中提供抗菌素建议的能力,并评估了其回答的适当性、一致性和安全性。
首先,能够准确理解研究者所提供的病情,但难以区分重点和非重点。当研究者提供信息较为明确时,可以识别出有重要意义的临床特征,但当病情较为复杂时,则可能忽略关键信息。
所提供答案的拼写和语法较为连贯,表达清晰。其回答总结了对病情和问题的理解,提供了处理方案,并特别指明其局限性和免责声明。抗菌药物覆盖范围和疗法与诊断相符,而且还能认识到临床应答对患者的潜在影响。其对疗程的推荐不一定都合理。虽然总体而言疗程是正确的,但有时控制感染源被错误地作为延长治疗的理由,有时则被完全被忽略。它似乎理解只有在细菌感染证据确凿时才需要处方抗生素。但识别抗菌素禁忌证的能力较差,尽管我们给出了提示,它有时还是反复给出危险的建议。
研究人员认为,临床应用面临的最大障碍是其在情景识别、推理和一致性方面存在重大缺陷。这些缺陷可能会危及患者安全。此外,不能访问专业的医学数据库,尚缺乏专门的临床咨询培训。
近景
今年晚些时候,或其他类似的对话式AI工具将可能在下述3个方面应用于临床实践。
总结患者病历和信息。通过人工智能和机器学习,有望很快成为医生的数字助理,该技术可从患者的病历记录中提取基本信息,将数据分组为症状、家族史、当前治疗药物、潜在过敏、实验室检查结果等。如此可让医生更加快速地评估患者需求,聚焦患者诊疗主要领域(如开头所述,我们在下周将介绍这些应用)。
行政职能自动化。研究表明,医生每周花大约16.4小时来处理患者用药、手术和其他医疗服务等行政性工作。可用于执行行政事务,如安排预约和其他重复性日常任务。
改善患教。目前,记录病史、治疗计划和后续诊疗方案的临床文件多采用专业术语,患者理解困难。可以学习简化医疗文书、处方,甚至建议生活方式,提高患者理解力,从而改善对患者的教育。此外,医生工作节奏快,患者与他们直接接触并得到建议较为困难。可以针对患者频繁咨询的问题,给出专业解答。
挑战
目前,生成的鉴别诊断或治疗指南结果看起来很权威,但仔细观察则可发现其所提供的参考文献并不存在。聊天机器人似乎重构了部分证据,而非参考真实证据。显然,在成为真正的专家系统之前,它的某些基础功能需要重构。
医生版本的需要根据最新数据进行训练,并基于医学文献以及专家评论、已发表的指南进行训练,甚至可能包括未发表的药物注册文章和会议报告。该应用程序还需要进行调整,以便对研究人员和从业人员提供最有用的信息,如引文和相关原始资料链接。
提供的临床建议也需要更加详细,甚至可以分层回答;为临床实践提供详细参考意见,但又不能信息太多以至于关键部分被埋没而难以找到。例如,它可以首先提供摘要,然后是详细解释,并提供具体参考资料。这样的系统必须不断监测其错误率,并进行调整以尽量减少错误。医护人员最好接受如何使用这种系统的培训,包括避免其弱点和陷阱。一旦这些基本问题得到解决,该系统就有可能大幅提高患者接受的平均诊疗标准,最大限度减少错误,并提高医疗实践的效率和成本效益。
这类人工智能系统需要考虑的最后一个问题是,这些不会思考的机器没有理解力,只能反映它们所受训练的数据。因此,它们有可能将训练数据中的所有偏见、假设和观点进一步放大。该系统也需要设置自己的优先事项——在推荐治疗方法时,成本效益、不惜代价的疗效、便利性、副作用最小还是医疗公正?
参考文献
1. A, Hope W, A. and : the end of the ? Dis 2023 Feb 20. DOI:10.1016/S1473-3099(23)00113-5 (Epub ahead of print).
2. Else H. by fool . 2023;613:423.
3. Rao A, Kim J, M, Pang M, Lie W, Succi MD. as an for -. [] 2023:2023.02.02..
4. Tools such as ; here are our rules for their use. 2023;613:612.
5. Thorp HH. is fun, but not an . 2023;379:313.