编者按:2023年4月20、21日,由深圳市前海管理局指导、基石资本主办的“2023中国前海企业家峰会”在深圳蛇口成功举行。此次峰会以“再谈创新之道:国家和企业的未来”为主题,围绕创新环境、创新精神与创新实践,多位重量级的企业家、科学家、学者和投资家进行了精彩演讲与深入讨论。南方科技大学电子与电气工程系系主任,加拿大工程院院士孟庆虎发表了“时代的人工智能与机器人创新”的主题演讲。
大家下午好!非常高兴及感谢会议给我分享人工智能与机器人方面研究工作的机会,尤其是我们在智慧医疗方面的一些工作。
我们经常会在视频里看到智能机器人非常厉害的场景。波士顿动力公司是仿人机器人领域的国际领先企业,尤其他们的大狗机器人得到了美国国防部的支持。大家看到的视频大部分都是千里挑一的成功案例,不成功的往往没有被看到。我们作为研究者,尤其要关注这些不太成功的案例以及探究其背后的原因。
01
从五个方面看人和机器人的主要区别
波士顿动力公司在仿人、仿狗、仿驴、仿豹子等仿生机器人方面,都有成功案例。为什么人类简简单单可以做到的一些动作,比如开车、下车、开阀门等等,这些造价不菲的仿人形机器人做不出来?我们做机器人研究,一定要弄清楚原因。
如果把人和机器做比较,我们从5个方面来看区别。
一是移动性能。人和机器人基本上差不多,人更灵活,机器人装上轮子可以跑得更快。
二是灵活柔性。这是两者最大的区别。人是百分之百的柔体,机器人是百分之百的钢体。
三是操作能力。机器人的操作能力相当厉害,有吸盘,有夹具,有各种各样人类不具备的能力。但人类有一个机器人不具备的能力——把玩能力,我们把一个东西把玩一下,基本上就能掌握它的物理化学性质。机器人目前还做不到,因为它缺乏一个传感功能。
四是传感功能。机器人在视觉方面比我们厉害,它有激光、有超声、有红外。但是,它没有人造皮肤。人造皮肤研究了30多年,我当年“863计划”的第一个项目就是做人造皮肤。这个课题非常难。希望后面借助材料科学和印刷电子的发展,能够造出像皮肤这么强大的触觉系统。我们的皮肤遍布全身,感觉非常敏感,而且坏掉以后还可以再生。这些功能使得人在传感方面有非常大的优越性,目前这是机器人的一个短板。
五是智能感知。机器人在这方面现在还是很薄弱。
人和机器人的区别主要在柔性、灵活性、智能感知方面。我们的实验室之所以叫深圳市机器人感知与智能重点实验室,就是要对瓶颈问题展开研究。
02
机器人尚不具备人脑的决策能力
机器人能不能达到人类的感知和决策能力?人有视觉、嗅觉、听觉、触觉,尤其触觉目前机器人是无法做到的,其他的都可以做到。人的这些感知是相辅相成的。比如我们半夜去上厕所,楼道里突然没电了,我们可以通过听觉、触觉和嗅觉继续找到厕所。
1992年,麻省理工学院一个非常厉害的博士生Mike 的博士论文研究的就是传感替代的问题。主要内容是在空间站里如果没有了力反馈,能不能通过视觉和其他传感来完成遥操作。博士毕业后,Mike 在休斯顿大学当了两年教授以后,就考上了航天员,到目前一共升空了三次,都是去干最难的技术活:维修哈勃望远镜。
传感器的替代在人来说是可以做到的,机器人目前还做不好。人获取信息90%靠视觉,信息表达90%靠声音。为什么现在没有能说会道的机器人?我们在研究这个问题的过程中发现,人的所有感官,眼睛、耳朵、嘴等都在头部以期高速传输传感信息到大脑,传感信息被快速处理做出决策后,通过中枢神经来控制我们的肢体完成任务。也就是说,关键在于大脑。机器人现在的感知已经非常厉害了,各种传感器基本上都有。但在决策方面还有很大的问题。
人脑到底是怎么工作的?这里有一张图,不同的人会将图解释为不同的场景,每个人的解读都不一样,这种现象很适合解释人脑选择性处理信息的功能。这同一张图,有人说一只牛啃着草皮往树荫下走,有人说一只羊啃着草皮往树荫下走,有人说一只狗闻着草皮往树荫下走,也有人说看到的是一大片无序的树叶、石头之类的。大多数人应该看到的是一只四条腿的动物和一片树荫。我们在解释一张图的时候有各种选择,大脑会选择那个更靠谱的。
人类可以处理图像信息,但Chat GPT目前还不开放图像处理。人脑和人工智能有什么不同?我们的大脑每秒可以处理1万亿比特的信息,每秒钟收到4000亿比特的信息,但只会对其中的2000条信息有可能关注,再对其中的7条信息有短暂的记忆,最多对其中1条作出反应。这些数据量的快速下降可以用数据集的交集处理来解释。
03
人工智能的瓶颈在于其训练不具备人的成长的学习环境
每个人脑的智能空间就像一个多维的球体。这就是人的智能,叫做普通智能。普通智能和人工智能的区别在哪儿呢?普通智能是一个高维的趋于无穷维的球体,每一个方向代表一个维度。可以计算出,这个多维度空间可以撑起一个圆满的球体。大家各个维度/领域的知识都知道一些,有的人在某个维度/领域擅长,有的人在某个维度/领域有短板。每个人的成长路径、经历、学习能力不一样,最后培养出来的普通智能的空间维度、强度和构造也不一样。
人工智能到目前为止,不具有人作为普通智能的成长环境。我们从在母亲的身体里形成生命的一瞬间开始,就在不间断地学习。这个数据集是不受限的,你碰上什么学什么,没有一个人来控制我们的数据集。妈妈今天吃了一碗酸辣汤非常愉悦,这时候你就能够感觉到酸辣汤的味道,以及妈妈愉悦的心情等。
到你出生以后,有一次你对酸辣汤莫名其妙地喜欢,你也不知道为什么,实际上在胎儿时期就已经种下了种子。类似这样的事,一直在有意识、无意识、潜意识的发生。
等到器官长得越来越成熟,接受的信息量越来越大,形成一个个崭新的数据集。我们遇到什么学什么,尤其到我们能说话的时候,就开始交互式学习,问这是什么,那是什么,没完没了。
我们的成长中的学习数据是不受限制的,学习机制是我们的大脑的固有算法。到目前为止,还没有人能研究透大脑到底是怎么学习的。所以,在这样的环境下培养出来的人类普通智能,尽管每个人有所不同,但基本上就是一个多维的趋于无穷维的智能球体空间。
我们培养出来的人工智能,基本上是一个低维的、定向型的空间。我们做了这么多训练,最后可能只是在某些维度上超越了人类。以Alpha Go为例,人工智能可以把下围棋这件事做得比所有人类都厉害,但是它可能在其他的维度/方面不如人。比如,如果没有给它植入算术维度,没有教过它算术,它可能都不知道2+3等于几。阿尔法狗的维度是极低的,但人的智能空间维度是极高的。
04
人脑是多维的,人工智能是低维的
人工智能是怎么训练出来的?首先选择一个数据集,然后有一个计算平台。我们得先看这个平台能处理多大的数据量,再给它植入一个算法,这个算法是尽可能的仿人脑的。训练的数据集越大,我们就会认为得到的人工智能就会更加聪明一点,但和人的大脑相比还是有差距。用智能空间的维度来解释,就能把这个事情理解得清楚一点。
在人类的普通智能空间里,每个维度都可以看成一个数据集。当我们做决定的时候,就好像是用这些集合来做交集。再大的集合,做几次交集以后就很小了。我们做交集的原则是什么?是比如目的、(优先事项)、价值观等等。这件事什么对我最重要?大脑自然会用这些作为原则来选择相应的那些维度来做交集。这就是从4000亿比特信息中通过交集变成2000条,进一步变成7条,然后对其中一个作出反应。
举个例子,今天来开会的每个人的、目的都不一样。有的人是因为对刘科院士讲的新能源感兴趣,专门跑到第一排占好位置。有的人今天来是为了接近某个女孩,所以首先看那个女孩坐的位置,然后他要坐到那个女孩附近,以便加个微信,听讲对他来说优先级不是最高。
4000亿比特信息在哪儿呢?其实就在我们当下所处的环境里。比如我问一个信息,这个屋子里有几个门?有几个扬声器?大家可能都没有兴趣去关注这些信息,但这属于4000亿比特一直在给你发送的信息,但是它不属于那个7条你只有短暂记忆的信息。如果你的目是惦记着来拿一个扬声器回去,那你进门的时候首先就会看好扬声器都在哪儿,得手后从哪个门把它带走等等。所以,每个人的目的不同,就决定了你的7条和1条是不一样的。我们人类有这样的能力,目前人工智能还做不到。
我们可以把Alpha Go看成是一个一维/低维的人工智能,在下围棋这件事上可以超越所有人,但在其他维度上可能连个小孩都不如。Alpha Go的在一个维度上的超能力能否扩展到人类普通智能的高维度上?这个需要人工智能的进一步发展。
05
人工智能的发展是一个量变到质变的过程
2015年,李飞飞做了一个Image Net,把全世界所有能收集到的数字图像全部放在一个大数据集里面,让大家去学,学完以后做了一个竞赛。最后发现,只要学过的都会,没学过的还是不会,包括现在的Chat GPT也是如此。人工智能有综合、总结、寻找能力,但还不具备推理或者想象的能力。
人类在看这张图的时候,永远不可能说它是一个棒球棒,可能会说它是一个小的像棒球棒,上面带毛的物体。把这个东西跟小孩的手、脸一比,我们有多层次的、互相矫正的推理过程。如果以前没有见过,不可能因为它形状像棒球棒,就简单粗暴地说它是棒球棒。
现在的Chat GPT厉害到什么程度,我们可以从这个内部测试结果来看一下。
可以说出这张图不寻常的地方在于,出租车的后边挂了一个熨衣板,一个人站在上面熨衣服。相比于2015年,读这样的图,已经有了很大的飞跃。但读图目前还没有对公众开放测试。
人工智能是一个量变到质变的过程,因为算法、算力、数据都在进步。现在的数据集实在是太大了。
当年,马斯克和奥特曼两个人之所以去做 Open AI,就是因为谷歌在做 ,他们的目标是把语音技术、自然语言处理做出来商用。另外,他们对 AI的安全性也有考虑。所以,马斯克跟奥特曼两个人就成立了Open AI。
当年成千上万的失败例子里面,好不容易有这么一个成功的。但是 从来没有发表过,原因是成功率太低了。现在Chat GPT的对话可以到什么程度?只要被训练过的就会,没训练过的还是不会,它自己是不会到网上去找信息,然后来回答你的。
所以,Chat GPT跟deep 基本上是一样的,唯一的变化就是数据量,算力和算法的持续改进,这些使得 出现了今天这个从量变积累到质变的结果,它并不是一个突然出来的革命性的东西,把以前的成果彻底颠覆的那一类。
Chat GPT之前的版本叫 GPT。Chat GPT和 GPT的区别在哪里?提问:假设2015年哥伦布到了美国, GPT认为哥伦布会非常高兴,对看到的所有东西感到好奇,对美国留下了深刻的印象。这显然和客观事实不符合。Chat GPT则认为这个故事有点诡异,哥伦布已经在1506年去世了,假设他2015年来到美国,他会看到2015年和1492年的美国差别太大了。这个进步还是非常明显的。
06
算法、算力、数据推动人工智能的进步
实际上,我们现在做的事就是图灵当年提出的图灵测试。图灵测试跟图灵奖不是一回事。ACM(美国计算机协会)的图灵奖旨在奖励对计算机领域有突出贡献的人。图灵测试是指测试者和被测试者(一个机器和一个人)在隔开的情况下,当测试者分辨不出被测试者是人还是机器的时候,这台机器就通过了图灵测试。
为什么现在算力这么厉害?2023年用1000美元买到的人工智能算力,基本上等同于一个普通人的智慧。我们看Chat GPT的大模型及参数,对比3.5版本和4版本,大模型里头有多少个参数可以调节?Chat GPT3.5有1750千亿个参数,到了有1.8万亿个参数,数量相差近10倍。
那么,训练的参数数据量有多大?Chat GPT3.5有45个(万亿字节),有1000个(万亿字节)。在算法结构方面,Chat GPT3.5基本上是自监督学习, 4是自监督学习加监督学习。在性能上,Chat GPT3.5基本上接近人类水平,已经达到人类水平。
算法、算力、数据推动人工智能的进步。大脑的算力到底是多少?有各种估计、猜测、分析、模型。但是,没有人能验证人的算力到底是什么样的,没有人知道大脑用的是什么算法,一个人一辈子所接受的数据量也是未知的。
对于人工智能来说,我们要尽可能地提高算力,让它的算法接近大脑的算法。大模型参数现在已经是千亿到万亿的级别,可能已经远远超过了一个普通人大脑里的参数量。因为算法、算力和数据量上的、突飞猛进,现在人工智能的文本能力已经基本上接近一个普通人的文本智能水平了。
07
“降维打击”将人工智能应用在日常生活场景中
Chat GPT很好用,它的算法也很好用,但我们用不起。因为要上万个最厉害的 GPU组成一个超算,才能够支持这个服务。那我们在日常中怎么用好人工智能?我们的答案就是把应用场景限制到超低维度。Open AI最大的受惠者实际上是微软,微软已经把它放到搜索引擎了,也要放。这里面有极大的隐患。如果你告诉把去年的报告调出来,把今年的数据加进去,另外加上三个新的创新点。报告写好的瞬间,三个创新点已经进到了它的数据库。隔壁老王也在写一个类似的报告,老王还没想到这三点,但是老王的报告里可能已经被自动植入了这三个创新点的新意了。这就是马斯克担心的事情。
如何低成本的用好人工智能?我们把提出的“降维打击”法简称为“超低维场景智能”,就是把应用场景限制在一个超低维的人工智能空间里完成训练,得到一个超低维度的人工智能空间里的有效算法,人工智能就可以用得非常好。下面举几个例子。
机场行李车回收系统就是将人工智能的应用限制在机场这个超低维场景智能空间里,它可以避障,可以检测空车,有人的、有行李的都不要。还可以跟人简单地对话,“对不起,我在工作”“请让开,小心撞到你”。如果你问它“2+3=?”,它一定不知道,也不需要知道。因为它所处的就是机场这样一个特定的场景。
同样的东西,把它用在无线胶囊内窥镜机器人上。我们将人工智能的应用限制在消化道这个超低维场景智能空间里,限定处理从口腔到肛门之间消化道内所获取的图像。这个图像采集出来以后,可以帮助我们很好地处理消化道的问题。但如果把这个胶囊对着人脸,它就识别不了。这就是我们说的降维打击,这样人工智能就能做得很好。
再比如,在骨科手术机器人项目,我们将人工智能的应用限制在骨科手术这个超低维场景智能空间里,把骨科医生在手术上的所有经验学习过来,机器就可以综合前人结果,做出一个优化的手术方案,辅助医生完成手术。机器人辅助的骨科手术大家看到视频中医生做手术就跟玩游戏一样,他看着屏幕上显示的指引,把绿色的部分给它锯掉,机器人会保证截骨精度,超出误差范围,机器人马上就会断电。要是碰到了安全边界,也也会断电。所以,只要把这个应用场景限制在一个超低维的智能空间里,我们就可以训练出一个超低维的人工智能空间来匹配。这样可以达到很好的结果。
去年抗疫的时候,深圳科创委给了我们一个抗疫专项,我们用三个月时间做出来了一台国际上领先的“神采”采样机器人,先是人脸识别确认人证合一以后,再通过视觉找到擦拭的位置,然后通过力控制左三下、右三下、上三下,完成标准动作。我们做了一个坐立式的和一个站立式的,每15秒就可以完成一个采样。
创新引领研发,需求驱动转化。机器人和人工智能势不可挡,但是我们用好任何一个工具,要知其善与尤其是其不善。