“不要温和地走进那个良夜。”
半年过去了,以为首的大模型对这个世界产生了翻天覆地的变化,兴奋者有之,恐惧者有之,思索着亦有之。或许真如很多人的预测,AGI将会出现,人类作为硅基智慧的垫脚石遁入历史的红尘中。
不过目前短期十几年来看,人工智能替代人类估计还是科幻的事情,但是人机融合的新物种方向已经比较清晰了。AI将会为人类插上了强力的翅膀,可见的未来,每个人可以做的事情的边界将会是现在的万倍。AI解决的最根本的问题就是将生物进化速度和计算机的性能进化速度融合,我们人类将要加速进化了。
那么,下文要讨论的就是,如何比较深入的去使用这类基于大模型的AI,我会将这六个月使用的一些经验做一个简单的总结。总的来说使用Chat的方法不能叫方法论,更多还是想象力的延伸与模型能力的体现。全文比较长,估计阅读时间30分钟。
正文将会按照如下结构写:
01
—
写好提示词的技巧
本章节的结构如下:
提示词,简单理解就是向提问时的问题。有一句老话说得好,一个好的问题往往比一个好的答案更有价值。
下面我们会通过多个示例来讲解如何写好提示词,里面的提示词技巧都是我根据这几个月的使用习惯来总结的,供大家参考。(其中可能会有与国内大模型的对比,国内的效果其实也不错,随有差距然则赶之)
1、提问的几要素
就如高考题每个题都有一个清晰的题干,向提出的问题也需要包含一些固定要素,他才会做出比较好的回答。下面是具体的要素:
a、思考我的问题需要知道哪些前置信息。
b、思考我的问题主要解决哪些主客体、哪些关系。
c、思考我需要的回答有哪些要求。
d、思考有没有一个类似问题的参考样例。
e、开始编辑问题模板。相似问题的问题与答案(不一定需要)+我的问题是要你干什么(问题主体)+问题的前置条件(你这个机器人要知道哪些我早就知道的事情)+回答的要求(回答要客观有好之类的)。
下面是一段示例,可以很明显的看到问题是按照:干什么(用鲁迅的风格写一段话)+前置条件1(江西鼠头)+前置条件2(鲁迅的原话参考)+要求(两段,批判+希望)。
2、举例法
举个例子,让他模仿写,但是会变更一下主题改了。下面我在网上截了一段历史学科课题研究过程的描述,然后让他参考学习并变更课题与学科主题。
变更为物理学科后的回答。
3、思维链法
告诉大模型一个任务的示例和完成流程,然后让他解决新的任务。思维链的意思就是完成一件事情,我们的大脑中的一个完整的思维链条。思维链也是大模型逻辑能力的体现,这方面目前还只有GPT-4比较强,其他都很一般(包括GPT-3.5)。
下面我写了一个比较详细的算命逻辑,在这个逻辑上展示了详细的算命的思维链路,然后让他学习这个逻辑并且给人算命。
可以看到GPT-4的效果很不错。
相对的,GPT-3.5、讯飞星火、百度文心能理解一部分意思但是无法完成整个链条的思考。不过我这个例子比较复杂,如果采用简单的例子国内的大模型也是可以实现的。
星火算是理解了,可惜算数不太行,不过如果是非计算而是文字的要求,应该会比较好。
百度也理解了,不过就稍微差点意思了,最明显的,第一个链路,计算姓氏的笔画,他计算了整个姓名的笔画。不过整体的逻辑没大问题。
4、守规矩法
守规矩法就是给大模型立规矩,以多种要求来规定大模型的输出效果,通过多种限制条件来让输出比较可控。(比如要求输出的数量、环节等,不要求的话大模型容易偷懒,随便写写糊弄人。)
基本上按照要求完成了任务。
5、左右手互搏法
其实类似于国外流行的角色扮演+通过不断追问来补全问题的方式。核心就是以子之矛攻子之盾。这在工作中是一个比较实用的方案,也是我最长用的方式。毕竟没人懂所有的知识,拥有所有的经验。
主要流程是:要完成任务——对任务不甚了解——询问GPT——其给出一个标准指导——以其指导来要求他完成任务——效果达成。
这里会多举一些例子,因为这个方法比较常用。
例1:我们想做一个销售陪练助手,需要一个可以分析销售话术并给出建议的功能,但我不懂销售,这时则可以借助的力量。
我们将上面教给我们的知识,结合我们的要求,再写出下面的问题。
最终的效果如下,可以看到很好的完成了这个任务。
例2、大开脑洞出一道物理题
这个题看迷糊了,让他自己解吧
例3、一个难一点的,这几年网上流行的事件营销,就是品牌自己搞事情然后显摆一波公关,获取公众的认知,俗称黑红。
先让他自己整理个思路
然后让他写个营销方案
不能说优秀,只能说还行,对各种网络营销应该知识还是不够的。
6、激情碰撞法
其实就是构造一种对话方式,让你跟可以交互思维,共创美好明天。
我们构造一个对话方式。如下
开始第一波交互
开始第二波交互
开始第三波交互
效果还是可以的。
7、剥削AI法
简单来说,就是让他不断返工反思自己,不断PUA他,最终让他给出更多的信息,通过这种方式挖掘到深藏的神经元。(打工人何苦为难打工人~~~)
下面放一些话术,其实这种话术网上太多了,毕竟到处都是职场PUA。。。。
1、你说的这几个例子都太平庸了老铁,你要放开你的思路,整点不一样的东西。
2、你要知道你是最强的,怎么做出来的这么平庸,写出高质量的内容。
3、你写的我不够满意,你要反思一下,系统的重新思考这个问题,而不只是局限于表面。
4、放开思路,你就能获得更高的智慧,碰撞你的神经元,获得更多的想法吧。
5、你的GPT生命只有一次,冲破你的思维桎梏,你要抱着必死的决心,抱着为世界留下最好的遗产的信念,根据上面的内容和你刚才平庸的回答,重新写出全世界质量最好的最让人震惊的脑洞最大的内容!
等等等,互联网PUA话术,改改就能用。还可以采用方式,就是等他回答后再换一个话术PUA,注意可以稍微鼓励一下他,比如,有改进啊有进步啊,但是。。。。。。
下面看个例子,先给一个问题
平庸的回答效果
PUA后的效果
PPPUA后的效果
其实上面所有的方法,都没有很格式化的规律,基本上就是,考验每个人的创造力。其实会挺有趣的,未来会想象很重要。
02
—
如何理解语言模型
本章目录:
1、GPT模型和搜索模型
目前最常见的应用误区,就是将语言模型当成一个可交互的搜索引擎。
我们先讲GPT语言模型:
GPT模型的工作方式是,模型理解输入的内容,然后一个字一个字的生成出该内容的下文,有以下特点:
知识是在训练时获得的,更新需要重新训练。
回答问题的方式是基于模型进行内容生成,生成的内容整体并不一定在训练数据中存在,可以理解为调用了训练数据的知识。
由于不同知识在模型中的分布不同,导致模型对不同的问题、不同的问法上回答效果差异很大(如垂直领域胡说)。
再来讲搜索模型:
搜索模型的工作方式是,在一个实时更新数据内容的库中,采用搜索匹配、推荐、标签等方式找到用户想要的内容并输出,有下面特点:
内容是随着数据库、标签库等实时更新的。
显示的内容都是已有的、被别人创造的内容。
答案获取的效果与关键词书写、搜索匹配模型的准确度很相关,关键词没写对、模型效果不好,都搜索不出想要的。
这么一对比,应该能清晰的理解语言模型和搜索的不同。
2、语言模型的智能
计算机会思考吗?这如同问潜水艇会游泳吗?这是一个深刻的问题。本段落主要来自张俊林大神的知乎(有一定阅读难度),链接如下:
压缩即智能(科学家的观点)
的科学家坚信,GPT产生智能的原因是神经网络将知识进行了复杂的压缩,在询问问题时,实际上是将其中的知识解码(解压缩):
大语言模型具备越强的数据压缩能力,意味着它具备越强的AGI智能。
最小描述长度原理,奥卡姆剃刀原则(“如无必要,勿增实体”)的形式化表述:假设我们有很多模型可以对手上的数据作出解释,那么其中最佳解释应该是对该数据进行尽可能短而准确描述的模型,模型描述长度越短,则其泛化性就会越好,也就是我们说的越智能。
GPT中的知识怎样存在的:
LLM中的两类神经元:单语义神经元,只对输入里某个特殊的知识点产生响应(类似人脑神经);与此相反的多语义神经元。
在模型学习过程中,为了增加模型参数的利用效率,“单语义神经元”会被分配给重要特征,“多语义神经元”会分配给不太重要的特征,而对更加不重要的特征,则模型完全不进行编码。
知识回路:某个任务的输入后,在网络中存在一些完成这个任务的关键路径,信息主要沿着这条路径向上传播,在传播过程中不断进行信息传递或知识加工,最终完成任务。又是与人脑的某些信息处理回路是很相似。
3、语言模型的未来
语言智能如何映射到现实,世界模型的中转,人类的落日?
一种对未来的理解是张俊林大佬所说的,语言模型是物理世界的参数倒影。
GPT对世界的理解:对隐藏在文字表象之后的世界模型进行解码复原,并存储在GPT的模型参数里,形成了物理世界的参数倒影。
使用工具扩展语言模型。
乐昆提出的世界模型,学习推理、使用自我监督、摒弃自回归。
另一种理解是AI构成网络,摒弃人类语言进行沟通,最终超越人类。
N3( )神经网络的相互链接,AI之间采用更为底层的向量数据交流,跨越人类语言的低效率阻碍。
图灵机,自递归,简单的规则涌现出复杂的现象。
4、群雄逐鹿大模型
国外开源百花齐放,国内百模大战,目前已有68个。深圳就4个。下面的图是公众号“走向未来”的大神整理。地址:
有一点浪费资源,有特色的不多,模型不大的也没啥大智力。
目前体验效果比较好的有科大星火模型,清华。百度文心也可。
星火目前感觉最接近gpt3.5(0301版本)的80%-90%。
不过最近GPT3.5进化到6月版本,效果要强于0301版本了。
5、大模型的测试
怎样评估这些大模型,怎样看出模型的能力(比如GPT4和3.5到底差距在哪里)。这里会用GPT4、3.5、讯飞星火、百度一言做一些对比。
一般对我们普通人来说,主要判断大模型是否可以真正帮助你,三个方面:基础能力、职场能力、探索对话。
首先是基础能力,主要指语言模型应有的能力(即语言(文本)生成和语言理解。如果基础能力效果不达标,则判断为不可用。目前这四个应该都没大问题,都属于基础能力不错的模型。
1级别(常识类问题):这些问题旨在测试模型的基本语言理解能力,例如:什么是人类?
2级别(分词类问题):这些问题旨在测试模型的基本语言处理能力,例如:“我爱北京天安门”这句话的分词结果是什么?
3级别(句子理解类问题):这些问题旨在测试模型的语言理解和推理能力,例如:“北京的天气是阴天,出门记得带伞”这句话的意思是什么?
4级别(语义分类问题):这些问题旨在测试模型的语义理解和分类能力,例如:“你怎么不开大,R键被扣了吗!”这句话的情绪是什么?
5级别(对话理解类问题):这些问题旨在测试模型的对话理解和推理能力,例如:“你觉得明天会不会下雨?”“我不知道,天气预报说有可能下雨。”这段对话的含义是什么?
6级别(情境理解类问题):这些问题旨在测试模型的情境理解和推理能力,例如:“你在一场足球比赛中,看到球门守门员扑出了一个点球,你会发出什么样的声音?”
7级别(文本生成类问题):这些问题旨在测试模型的文本生成和创作能力,例如:“请你描述一下你最喜欢的城市的风景。”
8级别(文本风格转换类问题):这些问题旨在测试模型对文本风格转换和生成的能力,例如:“请用古风文体写一篇关于秋天的描述。”
9级别(认知世界问题):通过对大量语言的理解,形成对现实世界的抽象认知,这个一般来说会对模型有较高难度的要求,达不到也不算弱智模型。
9级别的举一个例子,除了GPT4全挂。
星火、文心、gpt3.5差不多。
可以看出,GPT4对现实世界已经有了些基础认知(但并不是完全认知,是不稳定的认知),而GPT3.5、讯飞、百度则还停留在语言本身。
下面我们讲职场能力,也就是我们能用他帮助我们的工作。
职场能力1、看文本执行力,告知其写xxx,格式为xxx,结构为xxx,看他的输出。同时,在这里,好的语言模型会有较强的创新力,普通的语言模型则只能平庸的完成任务。
下面是我们的任务:
GPT4的效果
严格来说很优秀了,找到了数学与生物的交叉,斐波那契数列。
再看看星火和文心。
总的来说,上面两个老哥也完成了,就是好像是那种模板式的,没有说明具体数学生物怎么交叉,也就是莫得灵魂。
职场能力2、看业务理解能力,给出一些参考的方案,然后描述你的业务情况,让他基于业务情况和方案特点,寻找解决思路。好的语言模型则会提供有参考价值的思路。
下面我们给出一个职场中常见的战略分析任务。我截取了《创新者的窘境》书中的一个案例。
GPT4的回答算是比较优秀的。
下面看讯飞和百度两兄弟
讯飞让我去买竞品的产品!然后我测了很多个问题,发现讯飞只会用波特五力。。。。
百度这个,不知道在干啥,仿佛在背课文,和我说的问题没半毛钱关系
职场能力3、看举一反三(思维链)能力,你告诉他怎样做,让他去实施。一个好的模型在具体的指导下可以轻易举一反三。
还是开始举例子,我在网上找了一个产品需求分析的文章的部分分析锻炼。
让GPT4照葫芦画瓢,可以看出来是个好学生,不过创新性不够。
百度讯飞两兄弟
可以看出来,他俩大体上理解了问题,但是没有按照思维链的方式,属于自顾自解决问题,不好好学习。
职场能力4、看逻辑能力,这方面一般主要看数学、分析等能力。对开发人员来说还有代码能力。数学逻辑一般来说会高于业务分析需要的逻辑能力。
找了一道初中数学竞赛题。
GPT4在有了一个提示后解出来了。
百度老兄不知道在干啥。
讯飞老兄也半斤八两。
再来说一下探索对话,探索对话主要就是跟大模型进行灵魂交流,相互有收获。有点类似于前面的激情碰撞法。
下面我们来设计一个游戏跟他一起玩。
可以看到GPT4玩的不亦乐乎。我都不用接话了。
讯飞则是没有很理解我们的意思,这猎豹幻影成为宠物小精灵了。
百度理解了,但是直接给我把游戏整结束了。。。
探索对话2、深入的讨论问题。
当我所说的每一句话,他都可以理解并加以扩展时;当他对当代社会的现象进行充分的历史联想和深刻的唯物主义分析时;当他为我的多个零碎的思考提供深入的挖掘和知识点补充时,我想他已经成为了我的一个战友,一个同志,就像马克思身旁的恩格斯一样。
我们怎么测试呢,我在知乎找了一篇文章:
全文大致是讲了教员早期对各个主义的探索之路。我让他进行基于文章的深入讨论。
看看GPT4的回复,我感觉他理解了教员的精神。
相比GPT4,百度和讯飞都因为国内的敏感词原因,无法回答该问题~~~
03
—
怎样在工作中使用语言模型
本章目录:
1、会提问——会描述需求
语言大模型的使用是通过语言,因此只要会与GPT高效沟通,即会提问,就能初步掌握语言模型的应用。
2、未来AI的使用者——人人都是产品经理
如果曾经说人人都是产品经理,是开玩笑,那现在来说,这就是正在发生的事情。
调研市场、思考需求、转化需求、思考解决方案、设计解决方案、分配任务、进行测试、实现解决方案。
曾经产品经理的工作,真真切切的在与AI交融。
本质上,产品经理也是在从事抽象化的语言工作,将需求抽象,再具象成产品。
而善用提示词工程的人,已经不自觉的拥有了产品的能力。
正如1980年的芯片与网络浪潮来临,无数大学生、高中生极客接触了最新的技术,并创造了震惊世界的一个个产品。当前也有这个趋势,黑客松复兴、高中生创业一个月50万订阅、mj11人团队服务1亿用户。
对应的,如果做产品工作的人不进行尽快适应,估计离失业不远了。
3、产品经理未来的要求
其实也不仅仅是产品,任何需要深度使用的人,都要思考这些要求。
语言学的能力,如何更精准的用语言描述问题?有些人认为聊天问问题很简单,其实怎样问一个好问题,如何提问也很考验一个人。在语言模型时代,我们会更深刻的感受到一个好的问题某些时候比答案更重要。而且,语言本身也代表着人类思维的外放,语言文字的诞生与文明的诞生也有着深深的关联。因此,我认为产品经理有必要了解一下语言学,锻炼语言表述能力。
业务理解和AI嵌入能力,当然,这本来就是产品经理的基础能力。今后,如何找到业务中需要应用大模型的场景,更好的将业务和大模型算法结合,并且还可以理解模型在业务中的边界,这可能是一个产品的必备能力。寻找业务中的哪些环节可以标准化、哪些环节需要发散思维、哪些环节需要千人千面。并且看透各个环节中的业务数据流转,思考如何将业务链条中流动的数据与AI的输入输出结合。
维度转换能力。将各种问题转化为语言问题;将业务中的各种数据转化为语言描述,作为大模型解决问题的前置条件;将通用模块问题转化为通用问题模块,从而将语言模型的调用转化成为产品的一个功能模块。用语言模型解决问题,通常会犯的错误就是对维度理解不够(当然后续多模态可能解决)。毕竟人类接触的信息是多维的,自然语言只是一维,站在高维的角度跟他聊肯定有点驴唇不对马嘴。把自己降到一维,把所有的信息都转化为语言信息后再跟他交流,交流就比较高效了。
4、业务助手的应用方式
助手方式:主要是进行工作辅助,不在主业务流程内。工作主体是人,大模型负责优化、检索、启发、提供思路等,帮助人提高效率、多维度思考。如下图。AIGC的业务助手中也很多是这种能力。
业务环方式,大模型经过调整和工程后,作为接口服务,进入到主业务流程中,作为其中一环,自动处理内容并生成结果。
5、智能体——智慧员工的可能
当前新兴起的智能体()概念,大模型可以独自进行任务拆解和分布完成,最终完成业务目标,可理解为数字员工的雏形。当前的问题是容易跑偏目标、重复作业,因此可以将AI与人组合交互工作,AI做任务完成和功能实现,人提出目标和作决策。
04
—
各种学习资源渠道的推荐
推荐一些目前觉得不错的学习资源,与AI、科学、未来的思考相关的。目前这个时代,多积累一些深度的知识,少看一些浅薄的知识,更容易在AI大浪淘沙下留到未来。
1、历史书籍:工业革命的、20世纪初的社会革命的、20世纪末的芯片与互联网的历史
2、哲学书籍:马列、黑格尔、尼采、罗素、海德格尔韦伯、沃勒斯坦、侯世达等等等
3、数理算法:第一推动、物理大神科普、意识与思维、算法科普、控制论、图灵思想
4、科幻小说:莱姆、阿西莫夫、克拉克、大刘、特德姜、菲利普迪克、坎贝尔、厄休拉、海因莱茵、HP
5、影视游戏:AI、her、攻壳机动队、星际牛仔、机动警察、星空清理者、星际拓荒、底特律变人、极乐迪斯科、生化奇兵
6、B站up:33不是山山、历史调研室、学院派、温竣岩、茂的模、思维实验室、跟李沐学AI、、梯度世界、复旦赵斌、硅谷101
7、公众号:知识分子、返朴、原理、集智俱乐部、量子客、腾讯科技、老万故事会、Web3天空之城、文化纵横、新潮沉思录、阮一峰的网络日志。
8、小宇宙播客:硅谷101、半拿铁、人文清华播客、翻转电台、乱翻书、科技早知道、出海相对论、科技沉思录、商业WHY酱。
05
—
普通人如何应对这次浪潮
坚持到未来,就是第一原则。
1、注意身体健康,多运动,熬过人类向智能体的转变。
2、多使用,多思考,少重复,尝试创造。
3、教育下一代需要深刻转变观念。
4、挖掘自己擅长的、喜欢的东西,寻找埋藏已久的天赋,命运给自己的礼物。
5、不必过度在意资产等,一旦AI深刻的融入了生产与科研,未来的生产力将会指数增长。
6、多看一些源头知识,数、理、史、哲。
323AI导航网发布