chatgpt3通过图灵测试了吗 Google AI真的通过了图灵测试？还是图灵测试已经过时？

默认分类2年前 (2023)发布 admin

549 0 0

作者 | 阿司匹林

出品 | AI科技大本营（公众号ID：）

本月初的时候，在一年一度的开发者大会上大秀肌肉，其中最引人瞩目的当属（全双工）技术。基于这种技术的可以自己给发廊、餐馆等打电话，主动帮用户完成预约任务。

CEO 现场演示的两段通话录音让很多人兴奋不已，不过随后有媒体提出质疑，称这两段录音可能涉嫌伪造，或者至少经过了人为的剪辑。（详见《语气自然流利，外媒却质疑其演示通话录音是伪造的》）

而母公司董事长 John 在接受采访时表示，的这个 AI 已经在“预约领域”（in the of ）通过了图灵测试，更是一石激起千层浪，引发了 AI 社区的大讨论，赞美者有之，批评者有之。

而南京大学的周志华教授认为，“对图灵测试的一个重要反思就是它可能混淆了 cheat human 与 think like human 的能力，做到前者并不需要能做到后者。这催生了替代图灵测试的维诺格拉德测试。”

也就是说，可能在某些特定任务中骗过人类，但是着并不意味着它可以像人类一样思考，图灵测试在今天已经有点过时了。而 Cloud 人工智能和机器学习首席科学家李飞飞也认为，机器距离思考依然遥远。

那么我们到底该如何看待引发的各种争论呢？

实际上，这个市场上的玩家不只有，早在 2016 年 9 月，微软小冰就向普通用户开放了全双工技术，2017 年底，微软小冰联合小米发布的语音助手，又进一步将全双工技术应用到了智能硬件之上，具体的技术细节可以查看我们之前的文章——《》。

不论是微软还是，都是 AI 领域的领导者，两者之间的较量不可避免。为此，营长采访了微软小冰首席架构师——周力博士，希望能够得到有关图灵测试和全双工技术的全面解答。

▌ 真的通过图灵测试了吗？

问：你们是如何定义 AI 的？AI 是否有通用的、准确的定义？

人工智能的定义其实非常宽泛和模糊。如果广义地讲，计算机从诞生的第一天起就具备人工智能。如果把牛顿穿越到今天，或许最令他惊叹的“AI”不是语音、图片的识别能力，而是飞快的数学计算和海量的记忆存储。如果狭义地讲当下的人工智能，也可以限定使用神经网络深度学习算法的才叫人工智能。不过随着人工智能概念的火热，很多并未使用深度学习的算法，比如个性化推荐信息流都已被公司和媒体包装为 AI。再从普通大众的角度来看，或许人们已经习惯由计算机完成的事情就不会被称为人工智能，而以前无法由计算机完成的新事物更容易被理解为人工智能。

问：如何正确理解图灵测试？怎样才算通过图灵测试？

测试者与被测试者（一个人和一台机器）隔开的情况下，通过一些装置（如键盘）向被测试者随意提问。进行多次测试后，如果有超过 30% 的测试者不能确定出被测试者是人还是机器，那么这台机器就通过了测试。

问：周志华教授评论称，“对图灵测试的一个重要反思是它可能混淆了 cheat human 与 think like human”，您如何评价？

chatgpt3通过图灵测试了吗 Google AI真的通过了图灵测试？还是图灵测试已经过时？

这个评论是很中肯的。图灵测试作为一个 1950 年就被提出的想法，必须肯定它非常超前，也对人工智能的研究历史起了很重要的作用。但正如高考尚有导致应试教育的副作用，任何标准化测试都是有缺陷的，越简单的测试缺陷约明显。图灵测试对学术界尚有参考作用，但做实实在在产品的 IT 工业界不宜再拿图灵测试说事，更别说作为 AI 发展的引导了。

问：图灵测试真的能够帮助人们判断 AI 是否具有人类智能吗？如今还有什么意义？有其他更好的方法吗？

即使通过图灵测试，也远远无法判断 AI 是否具有人类智能。人类智能非常复杂精妙，我们至今并不真正理解其中的机理，因此 AI 真正具有人类智能是非常遥远的事情，当下谈有没有更好方法，恐怕并无实际意义。

问：怎样理解人类智能？什么才算是具备人类智能？

现阶段，只有真正的人类才可能具备人类智能，其他差的都太远，也就不用费心思考什么鉴定标准了。

问：说他们在预约领域已经通过了图灵测试，您怎么看？

从图灵测试标准定义的角度看， I/O 大会上打电话的演示至少有几方面差距巨大。

第一，图灵测试要求测试人事先就知道对面有可能是人也有可能是程序，而电话演示中的接线员完全没有这个心理准备，这在难度上差异非常大。

第二，图灵测试是由测试人主动发问，因此是开发领域的对话可能涉及任何话题，而电话演示的场景本身就讲对话内容限定为“预约”这个特定的狭窄话题。而且很讨巧地将助手的角色设置为待人订餐者（甲方），而不是业界通常希望 AI 承担的角色——接线员（乙方），作为人类接线员的乙方为了吸引更多的客户，对话中会更耐心地配合作为甲方的 AI，因而完成任务的难度也会远低于智能客服。

第三，图灵测试要求测试者分辨 AI 和人的时间为十五分钟，测试的电话时长远低于十五分钟。

第四，图灵测试的假设环境是文字交流而非语音交流，尽管使用语音带来了额外的难点，却也有了更多的余地去 cheat human，比如那句”嗯哼“。

▌微软 VS

问：小冰能不能做到演示的那样？在哪些领域通过了图灵测试吗？是否具备了人类智能？

首先小冰作为一个产品，它的目标是更好地与人进行更长时间的对话，从未以通过图灵测试作为目标甚至是参考因素。如果只是想通过图灵测试，伪装成一个无趣死板的人肯定比伪装成一个开朗健谈的人更容易。但小冰的人设显然是后者，因为这样对用户的价值更大。比如用户问“你是谁“的时候，小冰多数情况下会直接回答”微软小冰“而不会刻意隐瞒聊天机器人的身份。再比如小冰对任何消息的“秒回”，普通人是无法达到的也是非常容易分辨的，但为了用户和小冰聊天时不用浪费时间等回复，我们也为了用户体验主动选择在这点上“不像人”。

问：小冰的全双工技术与有什么异同？

首先和小冰的全双工技术有很多类似的地方：

第一，都是以”打电话式“的双向实时语音流作为基础，允许随时打断、补充等更复杂（相比发语音消息）的对话交互行为。

第二，在实现全双工对话的过程中，“何时说话”会变得和“说什么内容”一样重要，这也是微软、在全双工技术实践中都在努力解决的新问题。

chatgpt3通过图灵测试了吗 Google AI真的通过了图灵测试？还是图灵测试已经过时？

第三，都使用了“嗯”之类的语气词表明思考的过程、并缩减用户感受的回复延迟。

第四，都使用了端对端的深度学习模型生成对话的回复。

根据 I/O 大会的延时和 Tech blog 对技术的披露，微软宣布的全双工技术至少有以下几点是所不具备的。

第一，小冰的全双工对话是开放式领域对话，可以谈任何的话题不受限制，而目前的全双工实现尚限制在特定的任务领域。

第二，小冰的全双工技术具备类似人类“边听边想”的能力，一句话听到中间就开始预测全句的内容并开始思考答案，发现与预测不同还可以改口。这样可以使 AI 的回复响应更快更自然。

此外，小冰除了在电话及 IP 电话领域应用全双工之外，2017 年 12 月联合小米发布的语音助手、已经进一步将全双工技术的应用领域扩展到了智能硬件之上，智能硬件相比电话又有了很多新的技术要求。比如电话通常只属于一个用户，而家庭环境下智能硬件通常都有多个用户，声纹识别的重要性因此大大提高。再比如一次全双工对话可以延续较长时间，这里就会存在用户和 AI 对话的途中突然打断转而对其他人（电话或者当面）说话的可能，全双工小冰需要判别场景的转换才能避免不断插话等待。

总的来讲，小冰的全双工技术是 2016 年 9 月就正式发布开放给普通用户的，至今已经通过各平台打了超过 100 万通全双工电话，用户对全双工说了超过 1500 万句话。而的技术目前还未开放给普通用户，在实践经验上微软小冰肯定是领先的。

问：小冰的语音合成技术与相比如何？

在语音合成领域公开发布过、等最新技术和论文，在业界的确有很高的地位和声誉。微软小冰在这些技术上也已经很快赶上，并且在唱歌、情感表达上拥有独具特色的技术积累。“谁更先进”这点其实很难直接比较，因为全双工等技术主要通过美式英语展现，而微软小冰的全双工等技术主要通过中文普通话展现。中文在声调、多音字的很多特殊性，需要很多独特的技术支持，和英文的相应技术很难直接对比。

一直以来都是全球 IT 科技进步的关键推动者之一。在全球范围一直都是微软所尊敬的竞争对象。对我们中国人、中国科技界、中国 IT 界而言，一直都是我们所敬畏的一个存在。

尽管全双工技术确实是最先在中国和中文市场落地的，但的出现，对小冰这样一个纯中国本土的项目和团队既是一种鞭策也是一种肯定：肯定是因为这件事进一步证明了小冰的全双工技术路线是正确的前瞻性的，鞭策是因为中国和中文在人工智能的整体水平上，还是明显落后于“英文世界”的，绝大多数最前沿的科技成果（包括是一部分中国人、海外华人做出的成果）都首先或者仅仅应用于英文。

全双工语音对话技术率先应用于中国和中文，在人工智能领域其实是为数不多的特例。但是想要持续保持这个优势，肯定需要更多的努力，恐怕也不仅仅是小冰中国团队的独自努力，还需要中文世界里更多的科技公司和研究机构一起努力才行。

#一个小彩蛋

问：微软有考虑过通过语音来操作办公软件吗？

语音输入和操作，以及语音输入法都有支持。但在办公环境下，语音输入肯定不是常用的方法，毕竟多数人的办公环境，语音输入都会造成相互干扰。而且使用时间长了，语音比打字更容易造成使用者的疲劳。

公开课预告

课程主题：云从科技：详解跨镜追踪（Reid）技术实现及应用场景

时间：6月7日 20:00-21:00