文丨杨立英 任艳青
提 要:以为代表的人工智能生成技术带来的变革,将对基于现有研究范式的科研诚信建设提出新挑战。应从科研人员、政策、技术三个维度引导学术工作者合理使用技术,加强科研诚信监管。
是人工智能生成技术AIGC()的一款具体应用和产品,是一款人工智能对话系统,自2022年11月30日被推出以来,引起科技工作者对AIGC技术的广泛关注。AIGC技术是通过人工智能算法使用大量数据训练的模型自动生成文本、音频、图像、视频等内容的技术,可完成文本交互、AI绘图、视频编辑、生成代码等任务,目前已在媒体、设计与制图、在线教育、游戏开发等多个领域都有应用,实现了图像、文本之间的跨模态数据的生成,未来将会有更多跨模态的应用。
AIGC技术为科研人员提供了功能强大的工具,助力科学研究
AIGC人工智能生成技术可实现跨学科、跨语种、跨模态的数据资源的访问与处理,通过与科研人员的对话不断学习、优化,辅助科研人员开展科学研究,快速解决相关科研任务:
头脑风暴:AIGC技术具备大数据快速处理能力,可实现已有数据的检索、推荐、发现和融合,为科研人员提供灵感、素材或信息支持等,有助于挖掘潜在的、更具深度的研究内容和思路。
文献综述:AIGC技术具备跨学科、多模态知识的关联处理等能力,可以辅助科研人员更加全面地理解知识,快速提炼核心内容。
内容生成与编辑:AIGC等人工智能技术能根据科研人员的要求快速生成文本、代码、图像等工作,辅助完成自动摘要、关键词提取、语言润色、机器翻译等工作。
可视化和智能互动:AIGC技术支持可视化呈现及建立多样化的智能模型,实现人机互动,有助于将复杂信息以更易于理解和交流的形式呈现,辅助研究人员直观、互动式地展示研究样品、分析数据、研究成果等。
AIGC技术对科研诚信建设提出新挑战
科学技术是一把双刃剑。3月底,埃隆·马斯克等2800多人签名的一封公开信认为,当前人工智能研究未能正视阿西洛马人工智能原则,并提出了若干令人深刻思考的问题。AIGC技术带来研究范式的变革将对基于现有研究范式的科研诚信建设提出新挑战。
AIGC等人工智能技术的实现基础和使用过程均缺乏透明度。AIGC技术应用依赖于大量的数据,而数据源缺乏透明度必然会引起人们对于结论的怀疑。AIGC生成的内容缺乏对于数据源的引用,影响了科学研究的透明性,一方面这可能会引发生成内容的抄袭剽窃与知识产权纠纷,另一方面,AIGC技术的滥用或非诚信的使用,可能导致科研人员简单地将AIGC生成的内容作为自己的研究成果,抑制了真正的科技创新。
AIGC技术生成内容的真实性和可靠性让人担忧。AIGC技术仅仅是一个统计模型,无法产生原创性想法,因此不能完全或者深入理解提示内容的含义,因此可能会生成看似合理实则虚假的信息,并产生道德层面的问题,使科研的创新性和可靠性受到抑制。如2022年12月,一个程序员互问互答的热门论坛Stack 临时禁用了,因为管理者发现一些用户上传了大量由大型语言模型生成的回答,错误率很高。
AIGC技术的滥用可能引发更为严重的科研失信行为。AIGC技术可以通过排列组织预训练数据生成文本、图像、数据、代码、视频等,这些内容可能会形成论文或项目申请书,存在观点剽窃等隐患,也极易引发新形式的论文代写、抄袭剽窃、洗稿等学术不端行为。根据 Watch的数据统计,自2021年截止到2023年7月6日共有914篇因“ (随机生成的内容)”原因被撤稿,约占近三年来撤稿论文总数的8.34%。
AIGC技术对科研失信行为的识别和科研诚信监管形成新挑战。当下的AIGC技术生成内容无法明确知识来源,加上更加隐蔽的虚假数据“成果”,洗稿、新形式的论文代写等学术不端行为,原有的相似度查重和图像识别等技术逐渐失效,加大了识别这些学术不端行为的难度。AIGC生成内容具有迷惑性,可能会在已发表的文献中引入虚假或剽窃的内容,而同行评议专家具备的知识存储与核查精力是有限的,可能无法检测到AIGC技术生成的内容。在最近的一项研究中,学术评议专家仅能发现63%由创建的摘要。
科技界教育界出版界制定政策采取措施应对快速发展的AIGC技术
及人工智能生成技术给科学研究带来多重便利与挑战被社会各界热议,对于教育界和出版界的影响最为直接。
学校与教育机构发表声明、出台规范,引导规范使用及人工智能生成技术。据调查,全球已有超过20所大学或教育机构对的使用作出回应。多数机构针对的使用标准进行界定,一些机构对于涉及的引用与署名标准、使用指南等发表相关声明与建议。如,美国普林斯顿大学、德国赫蒂管理学院及澳大利亚昆士兰大学等一致肯定了人工智能生成工具对教育领域产生的积极影响,鼓励教员与学生尝试使用人工智能工具,以创新的方式获取和组织知识。与此同时,从人工智能使用范围、使用规范及方法等方面进行规范,强调应如何负责任地使用。香港大学对使用条款和条件进行界定,声明的使用仅限于工作与研究用途。此外,英国剑桥大学,强调在学术成果中阐明人工智能贡献的必要性,加拿大滑铁卢大学等对如何引用人工智能生成工具进行规范。
出版机构对持谨慎态度。众多国际知名出版机构对于署名问题表达了否定态度。《自然》和《科学》杂志都已明确,不符合列为作者的标准。物理科学预印本平台arXiv的董事会已经进行了内部讨论,一致认为软件工具不能成为提交内容的作者。施普林格·自然()于2023年1月24日在《自然》发表社论称“等工具威胁着科学的透明性”;爱思唯尔(荷兰多媒体出版集团)制定《关于人工智能和人工智能辅助技术在科研写作中的应用政策》,设定相关技术的使用边界。国际出版伦理委员会(COPE)发表了“关于使用AI工具的立场声明”,指出“作者如果在撰写稿件、制作图片或论文中的图形元素、或收集和分析数据时使用了AI工具,必须在论文的材料和方法(或类似部分)中明确说明如何使用AI工具以及使用了哪种AI工具。”美国心理学协会和现代语言协会分别给出了引用及生成式人工智能工具生成内容的APA格式和MLA格式的引用规范。
科技界努力研发“AI生成内容”的检测工具,防范技术滥用。在应对AIGC技术对科研诚信建设带来的挑战时,有一个关键的技术问题:AI生成的内容是否能被发现?许多科研人员正在进行这方面的研究,目前主要有两种解决思路,一种是研发能够识别AI生成内容的软件。美国公司研制一款合成文本检测器,其表示该工具经过学术写作训练,可以识别由生成的97%的文本,误报率为1%。斯坦福大学开发了“”来检测文章是否由AI生成,普林斯顿大学开发出了针对生成内容的检测工具——“GPT归零”()。另一种比较简单的方法是给AI内容加水印。2022年11月,宣布其和正在研究给生成的内容加水印的方法。近日,新华网联合中科院计算所等行业机构共同研发打造的“生成式人工智能内容安全与模型安全检测平台”(AIGC-Safe)已经公开邀请测试,该平台可对文本、图片、音频、视频等多模态AI生成或伪造的素材进行检测。
从科研人员、政策、技术三个维度引导合理使用AIGC技术加强科研诚信监管
针对AIGC技术对科研诚信建设带来的新挑战,笔者从自律为本,政策先行,技术防范三个方面提出建议,积极应对挑战。
自律为本,加强教育,强化科技工作者的责任意识和诚信意识。人工智能时代,学术不端行为更加隐蔽,形式更加多样,加强科研人员的自律意识是加强科研诚信建设的根本。引导科研人员自觉遵守道德规范,秉持实事求是、追逐真理的科学精神,诚实、透明地使用人工智能工具,提高科研人员的自律意识。
政策先行,加强指引,引导AIGC技术的合理、透明使用。建议组织科研诚信、人工智能技术开发等相关学科专家力量开展专题研究,围绕科技活动全流程,制定AIGC技术的合理使用边界,促使政策层面靠前发力,引导人们科学、合理、透明地使用AIGC技术,规避、防范可能引发的诚信风险,防止技术的误用与滥用。
技术防范,加强约束,借助AI技术推动科研诚信建设。“以子之矛,攻子之盾”。采取“以技术打败技术”的战术,鼓励开发人工智能生成内容的检测工具,为识别和鉴定“AI生成内容”提供抓手和依据,对于恣意使用人工智能生成内容形成一定震慑作用。同时,探索借助人工智能技术用于识别买卖论文、掠夺性期刊、套牌会议等学术不端行为的识别,助力科研诚信建设。(杨立英系中国科学院文献情报中心科研诚信研究中心执行主任、研究员、博士生导师,任艳青系中国科学院文献情报中心副研究员)