此篇文章,只做今日头条首发创作,拒绝任何人任何形式搬运到其它平台发布,感谢您的支持。
AI聊天机器人的发展似乎正逐渐陷入泥沼。随着时间的推移,用户们普遍感受到了这一问题:AI聊天机器人变得越来越”傻”了。微软的,作为其中的代表之一,尽管依托着GPT-4的强大支持,甚至开启了创造力模式,却频频出现回避问题、无法回复的情形。
用户们纷纷在等社交媒体平台上表达了对失去乐趣的怨言,认为其回答不再风趣幽默,而是变得冷漠无情,毫无人性可言。
更甚者,一些用户试图通过让围绕虚构人物展开演绎,却被意外地判定为存在风险,这种局面更加令人费解。微软方面虽然承认了性能的下滑,表示正在积极关注用户反馈,并计划未来改进,但问题的根源似乎并不轻易消除。
自今年2月初内测开始以来,已经经历了多次更新,从最初的”牛Bing”,再到被”赛博阉割”成”New病”,再到如今的精准、平衡、创造力三模式,微软不断努力着,试图打造一个全人类满意的AI大模型。然而,当前的局势显示出微软的努力或许适得其反。
与之类似的,也面临着用户抱怨,速度变慢、回复冗长、聊天单调。
实际上,不同厂商的大型语言模型都出现了性能下降的情况。
业界早已开始关注这一现象。研究人员从斯坦福大学和加州大学伯克利分校测试了GPT-4在3月和6月的版本,涵盖数学问题、敏感问题回答、代码生成和视觉推理四个领域。结果表明,GPT-4的能力出现明显下降。例如,关于数学问题,准确率从3月的97.6%降至6月的2.4%,回答长度缩短超过90%。
在视觉推理方面,6月版本在一些3月版本正确回答的问题上出错。
此外,AI编写代码已成为日常,但研究人员发现,3月的GPT-4输出中有50%可执行代码,而6月仅有10%。在回答敏感问题方面,直接回答率从3月的21%下降至6月的5%。
这一问题的核心可能是AI伦理。AI对齐的概念要求AI目标与人类价值相符,但这本身是个技术难题。
微软、等企业的AI对齐努力可能导致性能降低。AI大模型的能力依赖于强化学习和人类反馈,人工干预可能阻碍模型理解任务。
然而,AI大模型的发展还有其他限制,如算力不足。用户数量增加,但算力资源增长不足,导致响应速度下降,为平衡用户体验,减少性能成为解决方案之一。
综上所述,AI聊天机器人领域似乎陷入了一种困境。