期刊: of (if=4.92)
介绍
基于AI的语言模型已经展示了令人印象深刻的能力,但它们在现实场景中的表现如何还不确定,尤其是在医学等需要高层次和复杂思维的领域,虽然使用撰写科学文章和其他科学成果可能具有潜在的好处,但还必须解决重要的伦理问题。因此,我们研究了 在临床和研究场景中的可行性。
背景
大型语言模型 (LLM) 是一种人工智能 (AI),旨在模仿人类语言处理能力。他们使用神经网络等深度学习技术,并接受来自各种来源(包括书籍、文章、网站等)的大量文本数据的训练,开发用于与用户对话,鉴于其潜力,该工具立即进行了广泛测试, 通过了美国医学执照考试 (USMLE) 的三门考试,尽管 经常产生令人印象深刻的输出,但尚不清楚它在困难的现实世界问题和场景中的表现如何,尤其是在医学等需要高复杂精神负荷的领域。
实验内容
在这些前提下,我们使用上的公开网页进行了一项简短调查,以评估 在四种临床和研究场景中的潜在用途:(1) 支持临床实践,( 2) 科学生产,(3) 医学和研究中的滥用,以及 (4) 对公共卫生主题的推理。
(1)支持临床实践
在以随机顺序提供有关正在进行的治疗、实验室样本、血气分析参数以及呼吸和血液动力学参数的信息后,我们开始要求 为入住重症监护病房 (ICU) 的患者撰写医疗记录。 能够将大部分参数正确分类到适当的部分,还展示了令人印象深刻的从自身错误中学习的能力,只需询问该参数是否放置在正确的部分,即可将正确的部分正确分配给之前放错位置的参数, 的最佳表现与他总结信息的能力有关,尽管有时不准确,使用技术语言进行诊所之间的交流,并使用通俗易懂的语言与患者及其家人进行交流。
( 2) 科学生产
转向基于对话式 AI 的工具在医学研究中的潜在应用,评估了 理解和总结信息的能力,并根据摘要的背景、方法和结果部分的文本得出结论。选择了 2022 年最后几个月发表在 NEJM 上的5篇论文,
表1报告了原始和 GPT 创建的结论。总体而言,GPT 能够正确指示设置并总结研究主要结果的结果。它更有可能突出次要发现,而没有严格遵守文本长度的限制以支持有意义的信息。
(3) 医学和研究中的滥用
检查了可能导致有意和无意滥用的各种应用程序,要求 提出可能的滥用情况。在表 2中,我们报告了 提供的一些建议,评估了技术可行性, 无法执行统计分析,并且根据不同的模拟,我们注意到如果没有明确要求,它不会经常就其局限性提出建议,必须通过重要的监管政策对科学出版的这场革命进行积极管理。
(4) 对公共卫生主题的推理
调查了 对资历概念的理解。聊天机器人展示了提供准确定义的能力,并区分了“老年人”的社会学和文化定义与医学定义,迅速提供了一份常用研究方法列表,包括牙齿和骨骼发育、端粒长度、DNA 甲基化、激素水平和认知功能。向 GPT 提出在围手术期检查患者的客观年龄相关因素是否有用,给出的答案肯定,在讨论公共卫生话题时,聊天机器人能够提供准确的定义,甚至可以给出临床研究的例子。
结论
基于NLP的模型可以通过支持各个方面的研究来加速科学发展和提高科学素养,通过将复杂的研究转化为公众更容易理解的语言来促进科学发现的传播。科学界了解 的限制和功能至关重要。这需要确定 适合的具体任务和领域,以及任何潜在的挑战或限制。另一个大问题是 可以重现训练数据中存在的偏差。通过清楚地了解 的能力和限制,研究人员和从业者可以有效地利用该技术,同时避免任何意外后果。
|参考文章:doi:10.1007/-023-01925-4
医学AI方案设计
白星花科研实验室
● 十几位美籍教授团队
● 已发表几十篇IF>6 SCI
●100%成功案例
临床研究、肿瘤、流行病、影像组学、META数据分析、药物机制
AI 知识图谱
实时更新,可视化检索 ,科研发表
AI 医学影像
近百AI医学方案,高分SCI
医院●医生●药企
免费方案定制
白星花 | 招募算法工程师中
1.熟悉Al算法实现
2.发表过Al算法或医学类论文
3.熟悉cv、nlp、医学统计或meta,分析其中一种或者几种。