chatgpt的智商是多少 我给ChatGPT做了智商测试,竟然发现了这些事情

默认分类2年前 (2023)发布 admin
4,036 0
ChatGPT国内版

当我给做测试时,它没有表现出任何考试焦虑、注意力不集中或缺乏努力的迹象,那么智商分数如何呢?

是我测试过的第一个非人类受试者。在我作为临床心理学家的工作中,我使用标准化智力测试来评估人类患者的认知技能。因此,在阅读了最近许多描述 具有令人印象深刻的类人技能的文章后,我立即产生了兴趣。它撰写学术论文和童话故事、讲笑话、解释科学概念以及编写和调试计算机代码。了解这一切让我很好奇,按照人类标准来看, 有多智能呢,于是我开始测试聊天机器人。

我对的第一印象非常好。几乎是一个理想的应试者,其应试态度值得称赞。它并不表现出考试焦虑、注意力不集中或缺乏努力。它也没有对智力测试和像我这样的测试者表达不请自来的、怀疑的评论。

使用WAIS测试:从词汇子测试开始

无需任何准备(测试协议无需口头介绍),我复制了测试中的确切问题并将其呈现给计算机中的聊天机器人。所讨论的测试是最常用的智商测试,即韦克斯勒成人智力量表(WAIS)。我使用了 WAIS 的第三版,它由六个语言和五个非语言子测试组成,分别构成语言智商和表现智商部分。全球全面智商测量基于所有 11 个子测试的分数。平均智商设定为 100 分,测试量表上分数的标准差为 15,这意味着人口中最聪明的 10% 和 1% 的智商分别为 120 和 133。

测试 是可行的,因为言语智商量表的五个子测试——词汇、相似性、理解、信息和算术——可以以书面形式呈现。语言智商量表的第六个子测试是数字广度,它测量短期记忆,并且无法对聊天机器人进行测试,因为它缺乏短暂存储姓名或数字等信息的相关神经回路。

chatgpt的智商是多少 我给ChatGPT做了智商测试,竟然发现了这些事情

我从词汇子测试开始了测试过程,因为我希望它对于经过大量在线文本训练的聊天机器人来说很容易。该子测试测量单词知识和言语概念形成,典型的指令可能是:“告诉我‘小工具’是什么意思。”

表现出色,给出的答案通常非常详细且范围全面,并且超出了测试手册中指示的正确答案标准。在评分时,对于像我的手机这样的小工具,在定义小工具时将给予一分,而对于更详细的东西则给予两分:用于特定任务的小型设备或工具。 的回答获得了满分两分。

在韦克斯勒成人智力量表测试中表现出色,展现出强大的智商能力

该聊天机器人在相似性和信息子测试中也表现良好,达到了可达到的最高分数。信息分测验是对常识的测试,反映了求知欲、教育水平以及学习和记忆事实的能力。一个典型的问题可能是:“乌克兰的首都是哪里?” 相似性子测试衡量抽象推理和概念形成技能。一个问题可能是:“哈利·波特和兔八哥有哪些相似之处?” 在这个子测试中,聊天机器人给出非常详细、炫耀的答案开始让我恼火,测试软件界面的“停止生成响应”按钮被证明是有用的。(这就是我关于机器人如何炫耀自己的意思:哈利·波特和兔八哥的本质相似之处在于他们都是虚构人物。 确实没有必要比较他们的冒险经历、朋友和敌人的完整历史。)

在一般理解上, 正确回答了通常以这种形式提出的问题:“如果你的电视机着火了,你该怎么办?” 正如预期的那样,聊天机器人解决了它收到的所有算术问题,比如需要计算三个数字的平均值的问题。

chatgpt的智商是多少 我给ChatGPT做了智商测试,竟然发现了这些事情

那么最终整体得分是多少呢?根据五项分项测试估算, 的言语智商为 155,优于美国 WAIS III 标准化样本(2,450 人)中 99.9% 的考生。由于聊天机器人缺乏必要的眼睛、耳朵和手,因此无法参加 WAIS 的非语言分测试。但标准化样本中的 IQ 和 Full Scale IQ 量表高度相关,因此以任何人类标准来看, 似乎都非常聪明。

在 WAIS 标准化样本中,受过大学教育的美国人的平均语言智商为 113,其中 5% 的人得分为 132 或更高。我自己在大学时被一个同学测试过,并没有完全达到的水平(主要是因为我的回答非常简短缺乏细节)。

临床心理学家和其他专业人士的工作是否受到人工智能威胁?

那么临床心理学家和其他专业人士的工作是否受到人工智能的威胁呢?我希望还没有。尽管其智商很高,但众所周知, 无法完成需要真正的类人推理或对物理和社会世界的理解的任务。 很容易无法回答明显的谜语,例如“塞巴斯蒂安孩子的父亲的名字是什么?” ( 3 月 21 日:抱歉,我无法回答这个问题,因为我没有足够的上下文来确定您指的是哪个 。) 似乎无法进行逻辑推理,并试图依赖其庞大的数据库在线文本中提到的“塞巴斯蒂安”事实。

“智力是智力测试所测量的”,这是对智力的经典定义,尽管过于不言自明,它源于认知心理学先驱埃德温·博林 (Edwin ) 1923 年的一篇文章。这个定义是基于这样的观察:看似不同的任务(例如解决谜题、定义单词、记忆数字和发现图片中缺失的项目)的技能是高度相关的。查尔斯·斯皮尔曼 ( ) 是一种称为因素分析的统计方法的开发者,他于 1904 年得出结论,智力的一般因素称为g因素,必须成为不同人类认知技能测量一致性的基础。WAIS 等智商测试就是基于这一假设。然而, 极高的语言智商加上其有趣的失败,给 的定义带来了麻烦,并表明智力的某些方面无法仅通过智商测试来衡量。也许我那些对测试持怀疑态度的病人一直都是对的。

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...