对此,我们基于教授这封邮件的内容,问了问的观点:
一上来就表示,自己并没有能力验证内容的原创性,以及是不是由AI生成的。
「这位老师似乎误解了像我这样的AI是如何工作的。虽然AI可以根据提示生成文本,但它不能确定另一篇文本是否由人工智能生成。」
话虽如此,但这并不能拦住爱整活的网友。
他们来了一出「以其人之道还治其人之身」,在线教Mumm教授做人。
首先,表示,教授写的这封邮件,正是出自自己之手。
紧接着,网友又复刻了Mumm教授的做法——
拿一段看起来像是某篇论文的节选,来问是不是它写的。
这次,虽然没说是自己写的,但基本上确定内容就是来自AI。
其中,有几个特征与Al生成的内容一致:
1. 文本是连贯的,遵循一个清晰的结构,从一般到具体。
2. 准确地引用了来源和数字数据。
3. 正确地使用了术语,这是典型的Al模型的特点。比如GPT-4,就是在包括科学文献在内的各种文本中训练出来的。
那么实际上,这段内容的出处是哪里呢?
有意思的地方来了,没想到竟然是Mumm教授自己写的博士论文!
AI检测器并不灵?
既然无法检验一段内容是不是AI生成的,那什么可以呢?
自然是为此专门诞生的「AI检测器」,号称是用魔法打败魔法。
众多AI检测器中,最出名的一个便是由普林斯顿华人本科生 Tian创建的——它不仅免费,而且效果拔群。
只需把文字复制粘贴进去,就可以明确地指出一段文字中,哪段是AI生成的,哪段是人类写的。
原理上,主要靠「困惑度」(文本的随机性)和「突发性」(困惑度的变化)作为指标进行判断。
在每次测试中,还会挑选出困惑度最高的那个句子,也就是最像人话的句子。
但这个方法其实并不完全可靠,虽然声称产品的假阳性率
在实测中,有人曾把美国宪法输入,结果被判定是AI写的。
而刚刚那段的回复,则认为很可能完全是由人类写的。
这导致的后果就是,不了解其中原理、太固执的老师,就会无意中冤枉很多学生,比如Mumm教授。
所以,如果遇到这种情况,我们该怎么自证清白?
有网友提议,类似「美国宪法实验」,把出现之前的文章丢进AI检测器,看看结果如何。
然而,从逻辑上讲,即使能证明AI检测器确实不靠谱,学生也无法直接证明自己的论文不是由AI生成的。
问一下怎么破,它是这么说的。
「让老师理解AI的工作方式和局限性」,嗯,发现了华点。
目前小编唯一想到的答案是,如果不在教授眼皮底下直接写,那就每次写论文都录屏,或者干脆给教授开直播。
连对于自己的官方检测器,也只能保证26%的「真阳性」正确率。
他们还特地发了官方声明给大家打预防针:「我们真的不建议孤立地使用这个工具,因为我们知道它可能出错,使用AI进行任何种类的评估都是如此」。
AI内容检测为何如此困难?
目前市面上已有的检测器已经数不胜数——、、GPT-2 、 AI 、 at Scale AI等等,但准确率都差强人意。
那么,为什么我们想检测一段内容是不是AI生成的,就这么困难?
的AI副总裁Eric Wang称,用软件检测AI写作的原理,是基于统计学。从统计学的角度来看,AI与人类的区别在于,它极其稳定地处于平均水平。
「像这样的系统就像是自动补全的高级版本,寻找下一个最可能要写的单词。这实际上就是它为什么读起来如此自然的原因。AI写作是人类写作中最可能的子集。」
的检测器便会「识别出书写过于一致的平均情况」。然而,有时人类的写作看起来也会处于平均水平。
在经济学、数学和实验室报告中,学生倾向于遵循固定的写作风格,这意味着他们更有可能被误认为是AI写作。
更好笑的是,前不久的一篇论文中,来自斯坦福大学的研究团队发现:对于非母语者的论文,GPT检测器更容易判为AI写的。其中,中国人写的英文论文被判为AI生成的概率,高达61%。
论文地址:
研究人员从中国的教育论坛上获取了91篇托福作文,又从美国基金会的数据集中摘取了88篇美国八年级学生写的作文,输进了7大GPT检测器。
图中百分比即「误判」比例,也就是明明由人写的,却被判为AI生成的
可以看到,美国学生的作文被误判的概率最高才12%,而中国学生的作文,概率基本过半,甚至高达76%。
研究者的结论是,因为非母语者写的东西不地道,复杂度低,容易被错判。
可见,以复杂度来判定作者是人类还是AI,并不合理。
抑或,背后还有其他原因?
对此,英伟达科学家Jim Fan称,检测器在很长一段时间内都是不可靠的。毕竟AI会变得越变越强,并且会以越来越像人类的方式写作。
可以肯定地说,随着时间的推移,这些语言模型的小怪癖会越变越少。
不知这对学生们,会是福音还是噩耗。
参考资料
本文来自微信公众号,作者: 好困,36氪经授权发布。