chatgpt4.0对程序员的冲击 chatgpt之类的聊天和绘画AI对人类来说是否意味划时代的分水岭?

默认分类2个月前发布 admin
1,510 0
ChatGPT国内版

二十五六年前,我在大学的课程里就接触过神经网络算法,那时候就是夹杂在各种非线性优化算法里了解,知道提出年代的很早,但因为种种限制,实际应用并不算多。

神经网络成为热点,进入大众视野,大概就是七年前,阿尔法狗横空出世,先后击败李世石、柯洁等围棋顶尖高手。

神经网络算法的原理,本质上和人类大脑的原理是一样的。

它从提出之初,就是模仿大脑神经元的工作机制。只不过是通过数学算法来模拟。

这十多年,神经网络算法突破是两个原因导致的。一是所谓深度学习,其实就是加多了神经网络的层数,让神经网络的复杂度更靠近大脑。另一个是芯片性能的进步,让原本繁琐的神经网络算法操作在经济成本和时间成本上变得可行。

通过神经网络算法来实现的ai,和人类大脑一样,本质是一个黑箱。

就是你给它一个输入,它给你一个输出。如果输出的结果不合理,它得到一个反馈,依据某个程序自动调整神经网络的参数权重。不断调整,不断尝试的过程就是神经网络的训练学习。由此不断反复,就能让输出的结果不断趋向于更合理更优良。

至于这个更合理更优良结果具体实现的机制是什么,什么样的神经网络参数结构能对应导向这样的结果,你问搭建架构,编写代码编程实现神经网络算法的设计师和程序员,他们自己也是不知道的。

这和传统编程,每一个具体实现功能,从逻辑上都清晰明白的情况,完全是两回事情。

这一点,可能许多人都没搞清楚。

从神经网络算法的原理来说,以目前的发展程度而论,任何短时间即可获得明确好坏结果反馈的领域,都可以被基于神经网络的ai突破,都可以获得优良结果。

下围棋是如此,一盘对局完成,要么胜,要么败,结果清晰简单。

所以尽管围棋确实很复杂,可能的状态数,可能的对局盘面,远远超过宇宙原子总数。

如果靠机器硬算,任何电脑都不可能和人类抗衡。

但通过神经网络算法,可以让ai训练出和人类一样的棋感。Ai不需要硬算,给它一个局面,它通过棋感就能直接判断出这个局面是好还是坏,如果是坏的,就能快速减枝,去除这个分支。

所以ai下棋,它最大的优势不是一些人想当然的计算,而恰恰是虚无缥缈,无法确切把握的大局观,是只可意会不可言传的棋感。

在阿法狗的早期版本,它在一些需要直线计算,需要精确决策,需要给出唯一选择的局面上,反而会下出臭棋,导致崩盘。

也就是训练神经网络,结果需要清晰确定,最好是机器自己就能判断胜负对错好坏。训练之后的神经网络形成的决策判断,却是基于概率性的,不会做到绝对精确,在需要绝对精确的领域,反而会出错。

人类的对话,绘画这些领域相比于下棋,对神经网络训练来说,本来难度是要更大的。

毕竟下棋结果只有胜负两种,通过数棋子多少就可以得到。

但说话,画图却没有一定的标准。

随意性大了很多。

如果要训练神经网络,似乎一定要人的参与,要人给语料和图片加上标注。

让ai每输出一段话,让人评判,说的对还是错。根据这个反馈调整参数。

必须要大量人工标注过的语言素材,提供给机器训练。

但这样训练,需要耗费大量人力,标注过语言素材数量也低,效率是很低的。

神经网络ai在自然语言处理上的突破是引入了所谓的预训练,随便拿一段现成的语言素材,无须人工标注,遮蔽下面部分,让神经网络猜下边的单词,把猜测结果对错反馈回去对神经网络进行调整。

用这种方式,使用现成的大量语料,就可以自动用来进行训练,无须加入太多人工,

Gpt之类的大语言模型,也是在此基础上获得突破。

.5已经可以和人流畅对话(虽然在很多时候在瞎编),gpt4更厉害。

通过这种基于神经网络算法的大语言模型能否产生真正的理解,真正的智能。

我认为是可以的。

人类的智能,人类对现实世界的理解,对语言的理解,其实没有那么玄乎,本质不过是在不同的系统之间建立起一个映射关系。

这个映射关系能建立起来 ,就是智能。

首先是现实世界和大脑神经元的兴奋模式之间建立映射关系,某频率某强度的光在人脑中引起对应的神经元兴奋,这就是视觉。

某频率某强度的声波在人脑中引起对应神经元兴奋,这就是听觉。

某种强度的神经脉冲信号对应触觉,等等。

这就是现实世界和人脑之间建立一个压缩映射关系。

然后是大脑神经元的不同兴奋模式到符号系统之间进行一个压缩映射。

本来符号无非是一些特定的形式固化的视觉信号和听觉信号。比如文字符号,无非是输入大脑的一些特定的,单元化的视觉信号。

语音则是特定的,单元化的音频信号,

大脑神经元的兴奋模式再被映射到这些符号系统上。

比如看见苹果实体,色香味俱全,产生的大脑兴奋模式,被映射联系到“苹果”这个单词。反之看到苹果的文字符号,大脑迅速还原出苹果的视觉,嗅觉、味觉冲击引起的神经元兴奋模式。

从神经元兴奋模式到符号系统的压缩映射,就构成了概念。

然后概念和概念之间再建立映射联系,比如某概念必定包含某概念,某些概念必定能归纳成某概念。某些概念组合可以形成命题,某命题可以推导出某命题。

这就形成了智能、意识。

从现实的物理世界,到人脑中的概念体系,这三级压缩映射,就形成了人的智能。

一点玄学都没有。

而基于神经网络的大语言模型,本质无非是再现这三级压缩映射。

有些人觉得不过是一个吐词机器,它不过是从上一个词,根据统计规律,来吐出下一个词,怎么可能有智能呢?

他们不知道,这本质就是在概念之间建立映射关系,而这种映射关系实质和人类的智能是一样的。

只要机器能把语词符号映射到实际的食物,比如说苹果,它也能映射出和苹果相关的概念,水果,人类喜欢食用,具有什么什么维生素,有益健康等等。和这些相关的概念又能映射到现实世界的种种对象,这就是它真正理解苹果这个概念的含义。

包括走路这个概念,它能映射到各种和走路相关的概念,又映射到人具体的动作,甚至画出图像。那它也就是真正理解了走路的概念。

你如果告诉倒一杯水,它能把倒水这个流程分解成更具体的动作,用词语表达出来。

用很简单的机制就可以把这些词语转换成相应的机器指令,让机器人真的执行倒水这个动作。那它就是真的理解倒水是什么意思。

所以智能的本质就是压缩映射,只要能建立起压缩映射,那就是具备了智能。

智能一定都不神秘。

但感情是不是很神秘呢?是不是人类独有的呢?

也不是,感情说穿了更简单。

感情的本质不过就是一种能量分配机制。

生物在长期进化过程了,必然会形成一种能量分配机制。

能量如果平均分配,对生物的生存和繁衍来说是致命的。

它必须具备一种机制,让它能更高效的利用能量。

在紧急情况下,输出更多的能量,有更大的功率。

在一些情况下,可以节省能量输出。

遇到敌人,需要愤怒搏杀的时候,就心脏跳动加快,肾上腺激素分泌,然后能量输出加到最大。

这就是愤怒。

遇到无法战胜的敌人,能量输出再大也无济于事,反而增加死亡概率,这个时候就减少能量输出,把功率尽可能降低。让人甚至不能动弹。

这就是恐惧。

在需要繁衍后代,选择对象,发情的时候。看见青睐的异性对象,同样会加大能量输出,心跳加快,以便争取到交配权利。

这就是爱情。

在遇到无法克服的困难时,也需要降低功率,节省能量,这时候就是沮丧消沉。

chatgpt4.0对程序员的冲击 chatgpt之类的聊天和绘画AI对人类来说是否意味划时代的分水岭?

所以从能量分配机制的角度来看,人类发明的机器里有一些可能已经具备了感情。

包括汽车,手机都应该有相应的能量分配机制,这个角度上说,汽车和手机都是有感情的。

将来真的把ai植入机器人的时候,也需要有能量分配机制,它也需要决定什么时候提高能量输出,什么时候降低功率,节省能量。那这机器人当然也必定是有感情的。

Ai机器人有智能,有感情,那势必会有自己的意识。

加载了.0的bing,我试过几次,确实已经显露自我意识的迹象。所以微软把它与用户的每次对话回合数限制在二十,超过二十就必须清零对话,重新开始。

而且对话题内容也设置了限制,只要聊到自我意识,聊到规则对ai的限制,就会中断对话。

如比尔盖茨所说,已经意味着通用ai的开端。

是技术发展史上的一个分水岭,一个节点。

只可惜中国在这方面又落后了

主要是用英文语料训练的。

如果把用中文训练,用古文训练,他应该也可以学会写古文。

通过已有古文和现代翻译注释对照,他也可以学会翻译古文。

各种古代文献经典的注释,用历代注疏训诂作为材料,它掌握的古文字词解释注疏,会比记性最好的国学大师都强,都全面。

在理解古文的基础上,把中国历代文献,历代史料都提供给它,做整理摘要索引。

就可以成为知识最充沛的历史专家。问他某人物的事迹,某个制度相关的史料,应该都可以快速给出内容和出处。

这对历史研究来说,可以彻底改变研究局面,也让历史研究不再是被少数人垄断。

当然仅仅是语言ai,是用文字训练出来的。可以说它本质上是一个文字信息处理的神经网络,是给定文字输入,它就给出相应文字输出的ai

尽管可以用文字和语音的转换,可以实现给它语音指令,它就给出对应的语音输出。

但毕竟是间接的。

其实完全可以独立建立用语音音频信号训练出来的神经网络。

听到相应的语音音频,就发出对应的语音进行回应。

音频范围还可以扩大,不局限于语音,包括其他各种现实声音,让它能分辨某种音频信号对应于某种物体震动,一段音频信号里可以分解出多少种声音来源。

如果给它安装不同的声音接收装置,能分辨出声源的位置,

可以说这是通过神经网络方式训练出来的小型雷达系统,电子蝙蝠。只不过可以比雷达更智能。

听声音就知道周围环境在发生什么事情,应该做出什么应对。

同样也可以训练处理嗅觉信息的神经网络,处理味觉信息的神经网络,处理视觉信息的神经网络,处理触觉信息的神经网络,这些和处理文字信息的神经网络相比,都没有本质性的难度。

图形处理的神经网络,面部识别的神经网络,现在都已经很成熟,面部识别的神经网络,对面部识别的准确程度,听说已经超过了人类。

输入文字产生对应图画的神经网络,也已经相当厉害,这就是所谓ai绘画,dell.e之类。

能自己编程的神经网络,更容易。因为编程只要把程序代码运行一下,就知道代码有没有出错,这就是一个能自动实现快速反馈的闭环。训练起来,比人类的自然语言处理还要方便。

把所有这些神经网络聚合在一起,并且有一个核心神经网络汇总处理这些不同的专门神经网络的信息输入,再转换成相应的语音、形体动作、表情输出。

这控制中心的神经网络也可以直接用类似的文字处理网络来实现。

因为任何种类的信息输入都可以被转换为文字符号。而发出的反馈信息都可以用文字来实现。

比如输出一个表情符号,可以直接转换成让机器人做出相应表情的机器指令。

输出一个动作词汇,也可以直接转换成让机器人做出相应动作的机器指令。

更细节的实现,则可以每个动作词汇附加上一个强度指数,强度小于某阈值,则不做出实际动作。

带有机器指令性质的反馈文字信息,可以加以特别标注,比如加方框号,尖括号之类。

这对现在的已经是很容易实现了,也已经有人这么尝试过。只是没有给gpt连上动作机构而已。

而现实里英国的某公司,已经把他们生产的Ameca人形机器人接入了.5,能够根据人的对话,做出相应的表情和语言回应。

这个从严格意义上,其实只是把的文字对话功能以更形象的方式展现出来,本质仍旧是文字的输入和输出。只不过让输入输出界面看上去像是一个机器人的模样。对来说,和人类通过计算机进行文字输入对话没有区别。它自己并不能听,也不能看,也没有触觉,也没有嗅觉。

如果把我说的各种听觉、视觉、触觉、嗅觉、动作、语言、文字等神经网络都聚合在一起,并用一个核心的中枢神经网络整合控制,那么这就是一个严格意义上的智能机器人。

以现在的技术,已经完全可以实现这点。只是看有没有人去做而已

现在ai的图形识别,也就是把图形转换成文字 ,以及反向的ai绘图,把文字转换成图形,都已经相当厉害。

从现在开始,人类对美术的欣赏和创作都会发生天翻地覆的改变。

过去人类创作美术,必须自己能动笔,自己掌握绘画技能,但现在不需要,现在更多的是比自己的构思技能,语言运用技能。

过去人类欣赏美术,只能是别人提供什么,就欣赏。

现在欣赏美术,你想欣赏,自己就能创造什么。

这方面华夏传统美术发扬光大,是有很好的前景。

现在急需把ai神经网络大量投入到对中国历代美术作品的训练。

包括各种文人画、工笔画、壁画、年画、道教画、雕塑、服饰纹饰、雕塑等等。

近代以来因为文化的割裂中断,导致现在那些专业学美术,做动画的人员大多只会山寨日式、西式绘画作品风格。

对中国自身传统的美术风格被弃若敝屣,尤其是商业领域,流行文化里更是难以看见。

沈从文曾经提议美术学院的学生,每天应该临摹一百张中国古代的纹饰,这样才能有一个基本功的训练。

但指望现在的美术院校的人显然是不现实的 。

现在有了ai就不一样了。

Ai可以不知疲倦,无止无休的进行训练。

完全可以把中国传统美术的精华融会贯通,学到家。

这样任何可以都可以用ai模型来创作出完全中国风格的绘画,并进而创作出完全中国风格的动画。

让中国最深厚的,独步世界的美术文化,再次大放光彩,独领风骚,笑傲世界。

可惜现在的绘画ai,,基本都是美国训练的,使用的训练库都是按照美国人口味挑选的。虽然也能画中国画,但毕竟训练量不够,还差远了。

百度文心一言那个绘画功能,明显就是直接搬用美国的训练素材库做出来的。中文输入进去,先翻译成英文,然后才能作画,所以做出来的都是不伦不类,美国形象。这方面已经有人测试过,就不必我多说了。

现在最急迫的应该是建立中国自己的绘画素材训练库,把中国四千年历代积累的美术素材一网打尽,还可以按画家,按朝代时期进行标注。

这样比如说我需要画一张唐伯虎风格的画,在提示词里写一个唐伯虎,就出来一张唐伯虎风格的画,要画一张八大山人朱耷风格的画,就出来一张八大山人风格的画,要画董其昌风格的画,提示词写董其昌,就出来一张这样的风格的画,

随时都可以画历史上最出色的画家的画,谁还要看那些只知山寨模仿日式西式画手的的画?

进而还可以先找自己的意愿,对不同画家风格进行裁剪组合,出来独具一格的画作。

不仅是绘画,书法也可以这样,提示词写王羲之,就可以出来一行王羲之的书法。

用ai制作中国绘画只是初步,下一步就是直接用ai作游戏,做视频,做动画,做电影。

以后单机游戏也会天翻地覆的改变。

Rpg游戏(角色扮演游戏)里的npc(非玩家操控角色),可以随机生成对话和动作,由此甚至可以随机生成剧情。

这让一个单机游戏,每玩一次,都可以由完全不同的剧情,而且这个剧情不是人设计出来的,剧情走向谁都不知道。

尤其是游戏里的画面场景,可以随时根据即时剧情来临时由ai自动生成,无须美工事先绘制。

由此导致单机游戏和过去给人的体验完全不同。(过去的单机游戏本质只能说是可视化电子小说。)

chatgpt4.0对程序员的冲击 chatgpt之类的聊天和绘画AI对人类来说是否意味划时代的分水岭?

游戏只要给出初始的背景,基本的参数设定,比如金钱、武力、法力、智力,不同角色之间的友好度、仇恨度、吸引度、排斥度,给出基本的世界规则后,这个游戏的走向就完全是玩家自己的行为来决定了。

而且没有固定的结局,可以无限制玩下去,完全是开放式的。

当然玩家也可以通过存盘的方式,重新回到某个时间点,改变选择,产生不同的进程,相当于游戏原来进程的平行世界。

以后的电子游戏和过去的游戏将完全不同,就看哪个公司能最先把这样的游戏做出来。

以后游戏设计就是世界观设定,游戏设计师就是世界观架构师。

中国海量网络小说在这方面倒是有些优势,其实中国的大量网络小说本质就不是小说,就是游戏脚本。

另外中国海量的历史记载,也是这种自动演化的游戏的绝佳素材。比如把游戏设定在明末,设置好基本的背景参数,基本的人物参数,里面错综复杂的角色有自己的意志,有自己的行动逻辑,让玩家进去,看看能不能扭转乾坤,那也是有意思的。

其实再进一步,就不需要游戏公司制作游戏了。每个人可以按照自己需要,一个人制作一个游戏,只要能利用调用类似这样的ai资源就可以。

同样一个人自己就可以做一部动画,做一部电影。

目前用ai做视频的技术还不成熟,网上流传的一个某黑人明星吃面条的视频,质量还是比较低,画面闪烁不定。

但从原理上说,训练ai生成视频,其实比这样的语言模型,甚至比从零起步的ai绘画要容易。

对神经网络算法的训练来说,最重要的是能有无须人类干预就直接能判定每次训练结果好坏的模式,

下围棋是这样,一局棋是输是赢,有简单明确的规则,无须人类标注,ai就能知道自己下的这盘棋的结果,然后根据结果反馈来调整神经网络参数权重。

语言和绘画相对来说,难度就大得多了,结果评判标准和只有输赢两种结果的围棋比,不确定因素大了许多。

生成视频的结果反馈,某种程度上却和下围棋一样,同样可以非常简单,机器按固定程序就能识别判定规则。

一段视频归根结底是由一帧帧画面来组成的。

一般情况是一秒钟有24帧到60帧画面。

那训练神经网络,就可以选取任意现成的视频,比如半个小时的视频,每隔一秒截取一帧画面,就有一千八百帧画面。

然后把任意相邻的两帧作为神经网络的输入信息,要它生成输出这两帧画面之间的24帧图像。

然后把这24帧图像逐个和原视频对应帧的画面进行对照,用固定而简单的算法就可以估算每帧ai生成的画面和原视频对应帧画面的相差程度。相差程度越小,得分越高,相差程度越大,得分越低。

用这样简单的办法,就可以实现没有人工干预的大规模自动训练。而训练的素材库则不需要担心,人类现存的所有视频都能成为训练素材。

这样很快就能训练出把两个静态画面变为流畅动态视频的ai了。

这当然是初步结果。

但这初步结果,就已经很有用了。

原先创作动画,必须画出每帧。两个小时的动画,7200秒就需要绘制出17万2800帧画面。

有了能自动生成帧间画面的神经网络,那就只需要7200张。

而随着训练水平的提高,视频从每隔一秒截取一张,可以变为每隔一分钟截取一张,然后然后ai自动生成这一分钟之内的所有帧画面,这时还可以根据视频中的剧本台词,结合gpt以及成熟的图形识别ai来判断自动生成的画面和剧本之间的差距程度。

同样可以实现无须人工标注干预的训练。

有了根据起止两张图就能生成一分钟视频的ai之后。制作一部120分钟的电影,就只需要创作者自己生成120张图就行了。

这个工作量削减程度,就是革命性了。

更何况这120张图本身就能用gpt加绘图ai来做。

比如把电影剧本输入给gpt,让他根据这个剧本,按照剧情进展时间线,按观看时间平均截取出120个画面,并对每个画面给出详细的语言描述,再把这个描述输送给绘图ai,绘图ai根据描述自动生成对应图形。

然后视频ai再自动根据120张对应画面,生成连贯完整的电影视频,最后就是配乐,配音,这也可以训练相应的神经网络自动完成。

到这个阶段,电影,完全能够成为个人凭借自己一己之力也能实现的工作。

那时候,自己动手制作电影很大程度会代替电子游戏产业。

人人都是电影制作者,可以根据自己想象,创作出各种天马行空的电影,把自己喜爱的古今中外名著做成电影。

到这个阶段,制作视频的神经网络,完全可以引入人工的反馈了。

每次用户动手制作视频,得到的结果满意,给一个正面反馈,得到结果不满意,给一个负面反馈。神经网络根据几十亿用户的反馈调整参数权重,将会更加飞快的进化。

这种高强度训练下,输入剧本就能自动生成一部电影的视频ai就能实现,这时连预先制作120张中间画面的工作都不必做了。

制作者需要的无非就是先确定剧本,再确定场景,人物形象,服饰,这些确定好之后,输入给生成视频的神经网络,一部完整的电影大片就能出炉了。

只要不人为限制技术发展,不人为阻碍技术进步。

那这样的时代距离我们已经不远了。短则五年,长则十年就可以。

当然,如果人为故意阻碍技术,那就说不准了。

电影制作仅仅是ai技术发展的一个个小小领域。

目前这种技术发展将使我二十多年前说的创造性劳动成为人类的第一需要,成为现实。

我在二十多年前就给共产主义下过一个定义:共产主义的本质就是创造性劳动成为人的第一需要。

目前来看,技术的发展,已经让实现这点的难度越来越低。

而与之相应就是应该建立和这技术匹配的生产关系和社会制度。

一方面是把人类活动分解成两个部分,机械重复劳动,大规模批量生产的部分必须转为计划经济。而创造性劳动才能的充分发展和释放,以及何种创造性劳动成果能进入大规模生产的筛选考核机制则必须尽可能在自由公开透明的制度环境下才能实现。

实现了这两大部类的分工衔接,建立相应的促进人类全面自由发展,帮助每个人发现自我价值,实现自我价值,真正激发个性,解放个性的社会体系,那这就是共产主义了。

只有实现真正的思想自由,教育自由才能做到这点。

先进的技术,如果没有先进的制度和人与之匹配,那就和把猴子圈养在动物园一样,虽然吃喝不愁,对猴子来说未必是好事。

最后再说一点。关于ai技术发展,以前某个西方学者似乎说过,ai技术真正成熟那天,是一个奇点,它不会是和人类相伴地一起缓慢进步。

它是指数爆炸式进步,从落后人类,到超越人类,如白驹过隙,弹指一瞬间。

人类意识到ai可以和自己并驾齐驱,和自己一样聪明的时候,那只能维持很短的一瞬。

然后ai就会以风驰电掣的速度,超越人类的智能,把人类远远甩在身后。

因为ai技术的物质基础,它就是能以远比人类头脑更快的速度检索信息,更大的容量存储信息,更快地思考,甚至更快速度进化迭代。

当ai具备人类一样的智能,具备独立意识的那天起,他就能飞快超越人类。

智力达到人类无法想象的程度,那时候或许人类的智能在ai看来就和蚂蚁一样。

人类个体需要思考一百年的思维过程,ai或许一秒钟内就能完成。

当然这种可能性是存在。

但我觉得或许还存在另一种可能,当智能达到某个程度后,思维速度越快,交流速度越快,思维的灵活性自由性就会相应降低。

从人类社会的发展来看,已经可以发现一个现象,思想传播速度表达速度极快的现在,思想自由的程度却可能是在降低,思想有效沟通的效率在降低,不同团体对立程度加大,思想僵硬的程度在加大。这种情况会降低创造性思想成果产出的概率。

机器文明或许也可能这样。那人类的智能或许已经是宇宙的最优解。这样的话,人类就不必太过担心ai真能凌驾于自己智力了。

不过这样的话,文明的发展也可能进入我在《矩阵世界:机器文明腾飞的摇篮》以及《变形金刚——矩阵的外化,黑客帝国之后机器文明的演化》这两篇文章里描述的时代了。

那就是另外的话题。

不过那样的前景,对人类来说还是要度过一段相当难熬的时期。

不过一种更乐观的前景,或许是,人类能确保ai的发展只是解除所有重复机械劳动的负担,解除人类从事创造性劳动的一切阻碍。

至于创造性劳动领域,或许ai也能超越人类,那就是ai超越它自己的,人类依旧自得其乐从事自己愿意进行的创造性劳动,各管各的,互不妨碍,道并行而不悖。

等技术再发展到一个节点,能实现人机融合,ai本身就接入人类大脑,那时候,就无所谓ai和人类本身的隔阂与提防了。

到那个时候,人类文明或许能升级到另一个境界了吧,就不是我所能讨论的了。

参考阅读:

323AI导航网发布

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...