chatgpt回答糟糕发生错误 ChatGPT回答程序问题错误率其实超过50%

默认分类2年前 (2023)发布 admin

4,041 0 0

美国普渡大学的研究发现，开发的人工智能聊天机器人在回答软件程序问题时，错误率超过一半，且能骗过三分之一的提问者。

该研究团队分析了对517个Stack 网站上的问题的回答，评估了其正确性、一致性、全面性和简洁性。他们还对回答进行了语言和情感分析，并对12名志愿参与者进行了问卷调查。

这份研究报告的结论是：的回答虽然语言风格良好，但其实有52%的回答是错误的，77%是太过于冗长的。参与者只有在回答中的错误很明显时，才能识别出来。否则，他们会被的友好、权威和细致的语言风格所误导。

他们的论文指出：“在我们的研究过程中，我们观察到，只有当答案中的错误很明显时，用户才能识别出错误。但是，当错误不易验证或需要用到外部IDE时，用户往往没有能力去发现错误，或低估答案中的错误程度。”

chatgpt回答糟糕发生错误 ChatGPT回答程序问题错误率其实超过50%

不过，论文中也指出，即使答案存在明显错误，12名参与者中仍有两人仍然会选择采用的答案。论文认为，这是因为具有令人愉快、权威的风格。

该论文解释说：“从半结构化访谈中可以明显看出，礼貌的语言、清晰的教科书风格的答案、全面性和答案的关联性，将使得就算是完全错误的答案也能看起来是正确的。”

该论文的作者之一Samia Kabir表示：参与实现的人更喜欢不正确且冗长的答案，而不是Stack 的答案，这是由于多种原因造成的。

“主要原因之一是的答案非常详细。在很多情况下，如果参与者从冗长而详细的答案中获得有用的信息，他们并不介意回答的长度。此外，积极的情绪和答案的礼貌是另外两个原因。”

“当参与者发现的答案很有洞察力时，他们就会忽略了答案中实际存在的错误。自信地传达有洞察力的信息（即使信息不正确）的方式赢得了用户的信任，这使他们更喜欢错误的答案。”

chatgpt回答糟糕发生错误 ChatGPT回答程序问题错误率其实超过50%

Stack 是一个专门为程序设计师提供问答服务的网站，被认为是开发者获取程序代码片段和解决问题的重要来源。然而，该网站近年来也面临着流量下降、内容品质下降和用户信任下降等问题。据在4月份的一份报告显示，自2022年1月以来，该网站每月流量下降了6%，3月份下降了13.9%，而可能是导致其流量下降的原因之一。Stack 则否认了的评估，并表示其流量受到搜索算法和兴趣激增的影响。

作者观察到，的答案还更有煽动性——暗示成就或成就的语言——。“在很多情况下，我们观察到插入了诸如‘当然我可以帮助你'、‘这肯定会解决它'等单词和短语。”

在其他发现中，作者发现更容易犯概念错误，而不是事实错误。该论文发现：“由于无法理解所提出问题的潜在背景，许多答案都是不正确的。”

作者对答案和Stack 答案的语言分析表明，机器人的反应“更正式，表达更多分析思维，展示更多实现目标的努力，并表现出更少的负面情绪。”他们的情绪分析得出的结论是：的答案比Stack 的答案表达了“更积极的情绪”。

在其网站上承认其软件“可能会产生关于人、地点或事实的不精准资讯。”该公司暂未对普渡大学的研究作出回应。