人工智能chatgpt4.0测试 ChatGPT打破了图灵测试——评估人工智能新方法的竞赛正在进行

默认分类2年前 (2023)发布 admin

3,047 0 0

*百分位值是为达到这个分数的人类考生。

说：“许多这样的语言模型在这些基准测试中可以做得很好。”“但通常情况下，结论并不是它们在这些一般能力上超越了人类，而是基准是有限的。”研究人员提到的一个挑战是，模型是在如此多的文本上训练的，以至于它们可能已经在训练数据中看到了类似的问题，因此实际上可能正在查找答案。这个问题被称为污染。

表示，它通过在问题和训练数据中寻找类似的单词串来检查这一点。当它在移除类似字符串之前和之后测试LLM时，性能几乎没有差别，这表明成功不能主要归因于污染。然而，一些研究人员质疑这一测试是否足够严格。

纽约大学语言技术科学家山姆·鲍曼（Sam ）也在旧金山的人工智能公司工作，他警告说，不要把GPT-4的考试成绩仅仅看作是记忆的结果，从而抹杀它的能力。污染“使索赔有点复杂，但我不认为它真的改变了大图片，”他说。

研究人员还指出，LLM在考试题上的成功可能是脆弱的，可能无法转化为在现实世界中正确解题所需的强大能力。说，可以稍微改变考试题目，让它们不及格。她把一个考试的问题例如，他告诉工商管理硕士研究生，已经通过了，并稍作修改。一个人谁可以回答这个问题，将能够回答重新措辞的版本。但是失败了。

在解释基准的含义时，还有一个更深层次的问题。对一个人来说，在这些考试中取得高分可以可靠地表明他具有一般智力——这是一个模糊的概念，但是，根据一个定义，它指的是在一系列任务中表现出色并适应不同环境的能力。也就是说，能够在考试中取得好成绩的人通常可以被认为在其他认知测试中也会取得好成绩，并且已经掌握了某些抽象的概念。米切尔说，但LLMs的情况却完全不是这样，它们的工作方式与人类截然不同。“我们对人类的推断方式并不总是适用于人工智能系统，”她说。

这可能是因为LLM只从语言中学习；没有体现在物理世界中，他们不像人那样体验语言与物体、属性和感觉的联系。莱克说：“很明显，他们理解文字的方式和人类不一样。”在他看来，LLM目前证明了“你可以拥有非常流利的语言，而没有真正的理解。”

另一方面，LLM也拥有人类所不具备的能力——比如能够知道人类曾经写过的几乎每一个单词之间的联系。说，这可能会让这些模型依靠语言或其他指示符的怪癖来解决问题，而不一定要推广到更广泛的表现。

的研究员Nick Ryder也认为，在一项测试中的表现可能无法像在获得相同分数的人身上那样一概而论。“我不认为一个人应该看一个人类和一个大的语言模型的评估，并得出任何数量的等价性，”他说。得分是“并不意味着是一个类似人类的能力或类似人类的推理的声明。它意味着模型如何执行该任务的声明。”

在人工智能中，越大越好吗？

研究人员也比通过传统的机器基准测试和人体测试更广泛地探索了LLM。今年3月，位于华盛顿州雷德蒙德的微软研究院的塞巴斯蒂安·布贝克和他的同事们用一个预印本创造了波 5 题目是《人工通用智能的火花：GPT-4的早期实验利用GPT-4的早期版本，他们记录了一系列令人惊讶的能力——其中许多与语言没有直接或明显的联系。一个显著的成就是，它可以通过心理学家用来评估心理理论的测试，心理理论是人类的核心能力，允许人们预测和推理他人的精神状态。“鉴于GPT-4能力的广度和深度，我们相信它可以合理地被视为人工通用智能（ Gold）系统的早期（但仍不完整）版本，”他们写道。

但是，正如布贝克向自然解释的那样“GPT-4当然不像一个人那样思考，对于它展示的任何能力，它都是以自己的方式实现的。”

人工智能chatgpt4.0测试 ChatGPT打破了图灵测试——评估人工智能新方法的竞赛正在进行

米切尔说，尽管这份报告具有挑衅性，但它并没有系统地探究LLM的能力。“这更像是人类学，”她说。厄尔曼说，要想让人相信机器拥有心智理论，他需要看到与人类心智理论相对应的潜在认知过程的证据，而不仅仅是机器能输出与人类相同的答案。

人工智能研究人员表示，为了找出LLM的优势和劣势，需要更广泛和严格的审计。色彩缤纷的逻辑谜题可能是一个候选者。

新鲜拼图

2019年，在LLM爆红之前，在网上发布了一种新的人工智能系统逻辑测试，称为抽象和推理语料库（ARC）。 6 .解算者看几个正方形网格变成另一个图案的视觉演示，并通过指示下一个网格将如何转换来显示他们已经掌握了变化的基本规则。“它应该是测试你对你以前没有见过的事物的适应能力，”说，他认为这是智力的本质。

ARC抓住了“人类智慧的标志”，莱克说：从日常知识中提取抽象，并将其应用于以前看不到的问题的能力。

在2020年组织了一次机器人ARC比赛，那时LLM还没有获得很大的关注。获胜的机器人是一个人工智能系统，专门训练来解决类似ARC的任务。但是，与LLM不同的是，它没有通用功能；它只能正确处理21%的问题。相比之下，人们80%的时间都能正确解决ARC问题 7 .几个研究小组现在已经使用ARC来测试LLMs的能力；没有一个接近人类的表现。

和她的同事们制作了一套新的谜题——被称为——它们的灵感来自ARC，但在两个关键方面有所不同 1 .的测试更容易：米切尔的团队希望确保基准不会错过机器能力的进步，即使是很小的进步。另一个不同之处是，该团队选择特定的概念进行测试，然后为每个概念创建一系列的谜题，这些谜题是一个主题的变体。

例如，为了测试同一性的概念，一个谜题要求解题者将形状相同的物体保持在同一个图案中；另一个谜题要求解题者将物体沿同一轴线排列。这样做的目的是减少人工智能系统在没有掌握概念的情况下通过测试的机会。（参见“打败机器的抽象思维测试”）。

业绩不佳意味着什么

研究人员将任务提供给GPT-4和400名网上报名的人。平均而言，人类在所有概念组上的得分为91%（其中一组为97%）；GPT-4在其中一组上的得分为33%，其余所有概念组上的得分均低于30%。

米切尔说：“我们表明，机器仍然无法接近人类的水平。”“令人惊讶的是，它可以解决一些问题，因为它从来没有被训练过，”她补充说。

该团队还测试了竞赛中的主要机器人，它们不是像LLM那样的通用能力系统，而是为解决ARC这样的视觉难题而设计的。总的来说，他们的表现比GPT-4好，但比普通人差，其中一个类别的得分最高的 77 %，但在大多数 1 。

人工智能chatgpt4.0测试 ChatGPT打破了图灵测试——评估人工智能新方法的竞赛正在进行

：五个研究重点

然而，鲍曼说，GPT-4与的斗争并不能证明它缺乏抽象推理的潜在能力。他说是对GPT-4的倾斜，因为它是一个视觉测试。“即使你假设这些模型非常擅长这种推理，我也不认为你真的期望这个实验能成功，”他说。

测试方式的局限性可能使GPT-4更难进行测试。LLM的公开版本只能接受文本作为输入，因此研究人员给GPT-4一组数字来代表图像。（例如，空白像素可能是0，彩色正方形可能是数字。）相比之下，人类参与者只是看到了图像。说：“我们把一个只有语言的系统与人类进行比较，人类拥有高度发达的视觉系统。”“所以这可能不是一个完全公平的比较。”

已经创建了一个GPT-4的“多模态”版本，可以接受图像作为输入。和她的团队正在等待它的公开发布，这样他们就可以在上面测试，尽管她并不认为多模式GPT-4会做得更好。她说：“我不认为这些系统具有人类所具有的那种抽象概念和推理能力。”

剑桥麻省理工学院的计算认知科学家Sam 对此表示赞同。“我会震惊的，”他说。他指出，另一个研究小组已经在一个名为1D-ARC的基准上测试了GPT-4，在这个基准上，图案被限制在一行中，而不是在网格中 8 .他说，这应该会消除一些不公平。说，尽管GPT-4的表现有所改善，但这并不足以表明LLM可靠地掌握了基本规则并进行了推理。

推理论证

鲍曼指出，其他实验综合起来，向他表明，LLM至少已经获得了对抽象概念进行推理的基本能力。在一个例子中，哈佛大学的计算机科学家 Li和他的同事们使用了一个数字版的棋盘游戏《奥赛罗》，在这个游戏中，两个玩家通过在一个8×8的网格上放置黑色和白色的圆盘来竞争。他们的目的是研究LLM是否依赖于记忆的语言表面统计数据来生成文本，或者它们是否像人类一样建立了对世界的内部表征。

当他们训练一个LLM，给它输入玩家的走法列表时，它变得非常善于为下一个合法的走法给出准确的建议。研究人员认为，他们有证据表明， LLM 一直在跟踪董事会的状态，并使用这种表示来提出动议，而不仅仅是提出文字建议 9 。

鲍曼承认，一般来说，LLM的推理能力是“不稳定的”，比人类的推理能力更有限——但他说，它们是存在的，而且似乎随着模型的大小而提高，这向他表明，未来的LLM会更好。“这些系统绝对不像我们想要的那样可靠或通用，而且可能有一些特别的抽象推理技能，它们仍然完全失败，”他说。“但我认为基本能力是有的。”

鲍曼、米切尔和其他人都同意的一件事是，测试LLM的抽象推理能力和其他智力迹象的最佳方法仍然是一个开放的、未解决的问题。加州帕洛阿尔托斯坦福大学的认知科学家迈克尔·弗兰克（ Frank）并不认为会出现一个单一的、包罗万象的测试来取代图灵测试。“没有卢比孔河行动，没有一条线，”他说。相反，他认为研究人员需要大量的测试来量化各种系统的优缺点。“这些代理人是伟大的，但他们打破了许多，许多方面和探索他们的系统是绝对至关重要的，”他说。

给任何试图理解人工智能系统的人提供了建议——避免他所说的拟人化的诅咒。他说：“我们将任何表现出智慧的事物人格化。”

“这是一个诅咒，因为除了使用人类模型，我们想不出以任何方式展示目标导向行为的东西，”他说。“我们在想象，它之所以这样做，是因为它和我们一样，在被窝里思考。”

大自然 619 ，686-689（ 2023 年）

doi: