chatgpt人工智能概念版深度剖析：ChatGPT会进化成“超级人工智能”吗?

默认分类2年前 (2023)发布 admin

3,045 0 0

问世以来，在引起全社会关注的同时也触发了很多争论。很多人被它似乎无所不知的内容储备和流畅的语言表达能力所震惊，但也有不少人因为它不时冒出来的 “一本正经地胡说八道” 而断定其不堪大用。关于对未来社会的影响，有人欢欣鼓舞地憧憬脑力劳动的效率提升，而另一些人则在忧心忡忡地预测就业机会的减少。一时间众说纷纭，蔚为大观。本文无意于讨论这些问题，而只准备集中分析一个话题：这种系统会成为所谓 “通用人工智能” 吗？

是什么？

网上已经有对的很多介绍材料，所以我这里只谈和本文的话题直接相关的。属于 “大语言模型” （Large Model，LLM），其直接目标是总结人类语言使用的统计规律。其构造过程主要包括两个阶段：首先，利用互联网等来源提供的语言材料训练一个巨型人工神经元网络，直接在字词、语句等水平上总结语言使用者的习惯。

最简单的情况就是统计一个词出现在另一个词之后的频率，比如在 “这” 出现之后，有多少次下一个字是 “里” 。既然一个语言的词汇量是有限的，这种统计就完全可能进行，只是由于计算量极大，没有人会这样学习语言而已。以此为基础，可以进一步根据一个句子的开头计算其各种结尾的出现频率，以至于在一句话之后出现另一句话的可能性，如此等等。

这和很多输入法根据已经打出的字猜测后面的字的做法基于相同的原理，只是海量的语言材料和超人的计算能力使得这种模型取得了任何人类都无法企及（甚至难以想象）的结果。这就直接解释了的内容广度和语言流畅性，因为它所说的话就是该语言的使用者们在相同的语境下最可能说的。

在上述 “预训练” 的基础上，又经过了一个 “强化学习” 过程，在其中人类训练者为它提供了大量典型问题，并对其回复进行 “奖励” 或 “惩罚”，通过调整模型的参数使得其行为符合人类要求。这就解释了它为什么会在某些问题上提供背离统计数据的回复，尤其是当那些统计结果可能引起伦理或政治麻烦，或者不符合其作为聊天程序的 “身份” 的时候。

尽管上述过程已经覆盖了非常大的范围，但总还有问题超出其外，就是说既没有来自语言材料的显著统计结论，也没在后续训练中出现过。在这种情况下，（或者说作为其基础的人工神经元网络技术）就会根据最类似的已知问答做出反应。这里 “类似” 的标准也是统计性的，比如说 “这” 的统计特征（即前面提到的各种频率）和 “那” 会很接近，而和 “和” 就不会那么接近。

这种处理方式当然有道理，但也正是各种 “一本正经地胡说八道” 的来源，因为如果类似程度不够高，这种替换结果的可信性就很成问题，而且这种 “统计上的类似” 和 “含义上的类似” 毕竟不完全是一回事。

虽然上面的介绍已经大量简化，但从中已经可以看出的一些根本局限。由于训练材料不可能穷尽一个语言的所有用法，而基于统计相似性的解决方案并不可靠，其答案的可信性就不可能仅靠更多的训练来彻底解决。对于那些超出当前人类共识的问题，它就更是力所不逮了，因为这种技术对知识的有效拓展办法甚少，尽管它常常可以出色地总结和表达现有的人类知识。但既然这种模型的目标是 “再现一般人类的平均行为” ，所以对一个问题而言，即使其训练材料中确有真知灼见，也完全可能被陈词滥调所淹没。

同理，所谓 “AI的偏见” 往往都是社会的偏见，不能怪在的头上。另外要注意的是，所有所谓 “认为” 实际上都是 “人们认为”，而是没有 “个人观点” 可言的。很多网友热衷于询问对各种价值评价问题的看法，然后将其回复理解为 “反映了人工智能系统的世界观和价值观”，这对于大语言模型来说完全是一种误读。

什么是通用人工智能（AGI）？

现在来看问题的另一端。

众所周知， “人工智能” 一直没有一个公认的定义，但这绝不意味着随便怎么说都行。我在参考文献[1]里对此有详细讨论，在参考文献[2]中也有简略介绍，其主要结论是说 “人工智能” （AI）是对 “人类智能” 某一个方面（但不可能是所有方面）的再现。对于不同的研究者而言，这个方面会是下列选项之一：

结构，即AI应该基于一个人脑模型，从而实现 “类脑智能” ；