当 Taylor Webb 在 2022 年初尝试 GPT-3 时,他对 OpenAI 大型语言模型的能力感到震惊。这是一个只经过训练来预测文本块中的下一个单词的神经网络——跳跃式自动完成。然而,它对韦伯为其设置的许多抽象问题给出了正确答案——就像你在智商测试中发现的那样。“我对它解决这些问题的能力感到非常震惊,”他说。“这完全颠覆了我的预期。”
韦伯是加州大学洛杉矶分校的心理学家,研究人类和计算机解决抽象问题的不同方式。他习惯于构建具有特定推理能力的神经网络。但 GPT-3 似乎免费学习了它们。

上个月,Webb 和他的同事在《自然》杂志上发表了一篇文章,其中描述了GPT-3 通过各种测试的能力,这些测试旨在评估使用类比来解决问题(称为类比推理)。在其中一些测试中,GPT-3 的得分比一组本科生要好。“类比是人类推理的核心,”韦伯说。“我们认为这是任何类型的机器智能都需要展示的主要内容之一。”
韦伯的研究重点只是大型语言模型所实现的一长串非凡技巧中的最新一个。例如,当 OpenAI 在 3 月份推出 GPT-3 的继任者 GPT-4 时,该公司发布了一份令人瞠目结舌的专业和学术评估清单,声称其新的大型语言模型取得了优异成绩,其中包括几十项高中测试和律师资格考试。OpenAI 后来与微软合作,证明 GPT-4 可以通过美国医疗执照考试的部分内容。
多名研究人员声称已经表明,大型语言模型可以通过旨在识别人类某些认知能力的测试,从思维链推理(逐步解决问题)到心理理论(猜测其他人在想什么) )。
这些结果正在为炒作机器提供信息,预测这些机器很快就会出现在白领工作中,取代教师、医生、记者和律师。Geoffrey Hinton 指出 GPT-4 明显具有串连思想的能力,这是他现在害怕他帮助创造的技术的原因之一。
但有一个问题:对于这些结果的真正含义几乎没有达成一致。有些人对他们所看到的类人智慧的光芒感到眼花缭乱;其他人一点也不相信。
“当前大型语言模型的评估技术存在几个关键问题,”以色列拉马特甘巴伊兰大学的计算机科学家 Natalie Shapira 说。“这造成了一种错觉,即他们拥有比真实存在的能力更强大的能力。”
这就是为什么越来越多的研究人员——计算机科学家、认知科学家、神经科学家、语言学家——想要彻底改革他们的评估方式,呼吁进行更严格、更详尽的评估。一些人认为机器对人类测试进行评分的做法是错误的,应该放弃。
新墨西哥州圣达菲研究所的人工智能研究员梅兰妮·米切尔说:“从人工智能诞生之初,人们就一直在对机器进行人类智力测试——智商测试等。” “贯穿始终的问题是,当你测试这样的机器时,它意味着什么。这与对人类的意义不同。”
“有很多拟人化的现象正在发生,”她说。“这在某种程度上影响了我们思考这些系统以及测试它们的方式。”
人们对这项技术的希望和担忧空前高涨,因此我们必须牢牢掌握大型语言模型能做什么和不能做什么,这一点至关重要。