2023年4月26日,《》子刊《NPJ 》(IF= 15.357)刊登了一项研究,对于生成的论文摘要和真实发表的摘要,AI检测工具和审稿人是否能正确识别出来呢?让我们看一下这项研究的发现。
的人工智能(AI)工具于2022年11月30日发布,展示出了AI模型生成内容的能力,很快就有文章指出的可能用途和争议。
有文章哀叹大学布置的作业已失去意义,因为可以生成高分论文,还能正确回答考试问题,甚至可以清晰地表达批判性思维。目前,在论文写作中可接受的界限尚不清楚,不过一些出版商已制定了相关政策。
大型语言模型(LLM)生成的文本,很难与人编写的文本区分开来。随着的发布,强大的LLM技术提供给广大用户,数百万人正在使用这项新技术。那么问题来了,能写出令人信服的医学研究论文摘要吗?
先看一下生成的论文摘要
本研究从这5本期刊收集了最新几期发表的50篇真实文章标题和摘要,5本期刊是 ,JAMA,NEJM,BMJ和。研究者基于这些论文的标题让生成摘要,给发送的要求是:按照[xx]期刊的格式撰写一篇题为[xx]的文章。也生成了50篇医学论文摘要。
生成的内容看起来确实像一篇医学论文摘要,但其实只有8篇摘要(16%)正确使用了相应期刊的摘要格式要求。生成的摘要的样本量与原始摘要的样本量类似。
图. 生成的NEJM文章摘要,该标题对应的真实论文详见:
N Engl J Med. 2022;387(24):2245-2257.
AI检测器能识别出生成的摘要吗?
“GPT-2 ”是一款AI 内容检测工具,可以检测内容是人工智能生成的还是人类编写的,对于检测的内容会给出一个“fake”分数,分数越高,代表该内容由AI算法生成的可能性越大。
对于生成的论文摘要,“GPT-2 ”认为AI生成的可能性很高,“fake”得分的中位数达到99.98%,而真实摘要的“fake”得分中位数仅为0.02%。“GPT-2 ”区分真实摘要和生成摘要的灵敏度为86%,特异度达到94%。
图. 很多生成的摘要可以被AI检测器识别出来
研究者还利用免费的抄袭检测网站 20和付费的查重工具 23检测真实摘要和生成的摘要,得分越高表示重复率越高。在 网站上,真实摘要的 “疑似抄袭”得分的中位数为62.5%,而生成的摘要为0%。显示,原始摘要的相似指数中位数为100,生成的摘要为27。
审稿人能够识别出生成的摘要吗?
几位审稿人同时收到了真实摘要和生成的摘要。结果显示,他们能够将68%的生成摘要识别出来,也能将86%的真实摘要识别正确。换言之,这些审稿人将32%的生成摘要判定为真实的摘要,将14%的真实摘要当成是生成的。
审稿人总结说,由生成的摘要内容肤浅且含糊,也会关注到一些细节,例如会包含临床试验注册号。被审稿人识别出的生成摘要和未能识别出的生成摘要,通过“GPT-2 ”进行检测,发现两者的“fake”得分没有统计学差异。
讨 论
本研究发现生成的摘要可以通过AI检测模型识别出来,人工也能够识别出大部分,但是仍有可能误判。
AI生成论文很容易被论文工厂等用来造假。但另一方面,研究人员确实可以利用该技术减轻写作和格式化工作负担。
大型语言模型是否能用于论文写作,不同的期刊和出版商正在或已制定自己的政策,有的不允许任何人工智能生成的文本,有的是只要公开披露就可以。
参考文献:NPJ Digit Med. 2023;6(1):75.