美国普渡大学的研究发现,开发的人工智能聊天机器人在回答软件程序问题时,错误率超过一半,且能骗过三分之一的提问者。
该研究团队分析了对517个Stack 网站上的问题的回答,评估了其正确性、一致性、全面性和简洁性。他们还对回答进行了语言和情感分析,并对12名志愿参与者进行了问卷调查。
这份研究报告的结论是:的回答虽然语言风格良好,但其实有52%的回答是错误的,77%是太过于冗长的。参与者只有在回答中的错误很明显时,才能识别出来。否则,他们会被的友好、权威和细致的语言风格所误导。
他们的论文指出:“在我们的研究过程中,我们观察到,只有当答案中的错误很明显时,用户才能识别出错误。但是,当错误不易验证或需要用到外部IDE时,用户往往没有能力去发现错误,或低估答案中的错误程度。”
不过,论文中也指出,即使答案存在明显错误,12名参与者中仍有两人仍然会选择采用的答案。论文认为,这是因为具有令人愉快、权威的风格。
该论文解释说:“从半结构化访谈中可以明显看出,礼貌的语言、清晰的教科书风格的答案、全面性和答案的关联性,将使得就算是完全错误的答案也能看起来是正确的。”
该论文的作者之一Samia Kabir表示:参与实现的人更喜欢不正确且冗长的答案,而不是Stack 的答案,这是由于多种原因造成的。
“主要原因之一是的答案非常详细。在很多情况下,如果参与者从冗长而详细的答案中获得有用的信息,他们并不介意回答的长度。此外,积极的情绪和答案的礼貌是另外两个原因。”
“当参与者发现的答案很有洞察力时,他们就会忽略了答案中实际存在的错误。自信地传达有洞察力的信息(即使信息不正确)的方式赢得了用户的信任,这使他们更喜欢错误的答案。”
Stack 是一个专门为程序设计师提供问答服务的网站,被认为是开发者获取程序代码片段和解决问题的重要来源。然而,该网站近年来也面临着流量下降、内容品质下降和用户信任下降等问题。据在4月份的一份报告显示,自2022年1月以来,该网站每月流量下降了6%,3月份下降了13.9%,而可能是导致其流量下降的原因之一。Stack 则否认了的评估,并表示其流量受到搜索算法和兴趣激增的影响。
作者观察到,的答案还更有煽动性——暗示成就或成就的语言——。“在很多情况下,我们观察到插入了诸如‘当然我可以帮助你'、‘这肯定会解决它'等单词和短语。”
在其他发现中,作者发现更容易犯概念错误,而不是事实错误。该论文发现:“由于无法理解所提出问题的潜在背景,许多答案都是不正确的。”
作者对答案和Stack 答案的语言分析表明,机器人的反应“更正式,表达更多分析思维,展示更多实现目标的努力,并表现出更少的负面情绪。”他们的情绪分析得出的结论是:的答案比Stack 的答案表达了“更积极的情绪”。
在其网站上承认其软件“可能会产生关于人、地点或事实的不精准资讯。”该公司暂未对普渡大学的研究作出回应。