先同步下本周持仓和收益情况。
当前持仓:
收益情况:
。。。
要说最近最火的,莫过于 了。
我是去年 12 月份左右注意到 的,当时小吃了一惊,但没太当回事,因为回答问题,写代码,甚至写作文这种事,2020 年的 GPT3 就已经能做到了。所以确实没想到后面能这么火爆。
最近看到一些人对 有很多不切实际的幻想或期望,甚至有些害怕。消除恐惧的方式是去了解它,了解了它的运行方式,也许你就能判断它能做什么,不能做什么了。
我自己毕业前,实习的经历都是 NLP(自然语言处理)相关的, 的底层模型 (这个算是一个大突破,影响了非常多领域, 提出的,GPT 中的 T 就是这个) 2017 年刚提出时,我也应用了一把,做了个自动生成文章标题的工具。
毕业后虽然换了方向,但也保持着对对话系统领域的关注,所以针对 有些想法,可以简单科普/分享下,也许对大家看待 会有所帮助。
1. 语言模型
其实是一种大语言模型。什么是语言模型呢?
不讲公式,不讲理论,我就举个极简版本的例子。
给定以下的文字数据:
知识改变命运
知识改变行动
一个最简单的语言模型就是,给定前缀,选择后续出现概率最大的字作为后续。
比如,如果一句话已经有了「知识」作为开头,那么「知识」后面什么字出现的频率最高呢?是「改」字;
「改」字接上后,这句话就变成了「知识改」,继续,「知识改」后面出现什么字的频率最高呢?是「变」字;
依此类推,按照这个「规则」,机器可以给我们生成一个完整的句子:「知识改变命运」或「知识改变行动」。
这就是「生成式语言模型」, 中的 G 就是「生成式」的意思。
道理就这么简单,事实上,初期的语言模型就是基于统计学的,用到的语料也比上面我举的例子大十万倍百万倍。
后续的发展基本上是这个路线:统计模型 -> RNN -> -> BERT -> GPT -> ,这些词语不需要了解,只需要知道这个过程中,模型越来越复杂,用的数据越来越多就行,但道理是类似的。
了解了这些,我们就知道,语言模型学习的是人类已有文字中的范式,对于人类也不知道的事情(比如明天股价涨跌,茅台什么时候提价等),就不要奢望 能够给你靠谱的答案了。
同理,如果你想考倒 ,问一些非常偏门的几乎没人问过的问题就行了。比如各种沙雕没用问题
。
如果你想更深入的了解语言模型和 ,推荐看下面这个视频(观看门槛不高,放心观看):
上面的介绍还是比较客观的知识科普,下面我想谈一下自己主观的思考,可能不对,你就当我是做个记录吧。
2. 革谁的命?
的推出到底会颠覆什么呢?有人说会革搜索引擎的命,有人说 的诞生类似于浏览器的诞生。
我认为, 首先是信息检索领域的一大进步。
自互联网诞生以来,信息检索就是一个非常重要的问题:全世界网页/信息那么多,人们该如何从浩瀚的网页中得到自己想要的内容呢?
诞生之前,主动信息检索的发展过程是:浏览器->门户网站->搜索引擎。(推荐系统也是信息检索的一种方式,不过是被动的)。
浏览器
浏览器的诞生大大提高了互联网的信息检索效率,人们可以通过输入一串网址来访问互联网的不同内容。不方便的点在于,你需要事先知道什么网址有什么内容才能找到自己想要的。
门户网站
门户网站其实没什么技术上的突破,它只是一个特殊的中继网站,用来跳转到其他网站。这个网站把常用的网址分门别类,让用户更容易找到自己需要的网址。不方便的点在于,门户网站收录的网址有限,只能满足大部分用户常用的需求。
搜索引擎
搜索引擎则更进一步,满足用户更个性化更长尾的需求:需要什么,搜一下就行了。门户网站不可能收入全世界所有网址,但搜索引擎可以。到这一步,信息检索的效率被进一步提升。不方便的点在于,搜索出来的结果有非常多,还需要用户自己去选择什么信息是有用的。
可以看到,从信息检索工具的视角看, 弥补了搜索引擎的缺陷:它直接呈现给用户有用的信息,不再需要用户自己去挑选和判断了。
从这个角度看, 带来的是信息检索效率的大幅度提升,信息检索效率的提升也会带来生产力的提升。
如果你的工作中经常需要查资料,用搜索引擎的话,应该体会会比较深。
在查资料的过程中,有一部分时间会“浪费”在 「搜词->逐个点开网页->判断是否有用->多个网页都没有自己想要的信息->换个搜索词->重复前面的步骤」上。如果能够把这些时间节省下来,那么每个人的工作效率会大幅度提升。
所以,从上面的逻辑来说,说 的诞生类似于浏览器的诞生也好,类似于门户网站,搜索引擎的诞生也好,都没问题。
按这个路线,个人认为 对搜索引擎的威胁是最大的。也许未来,搜索引擎的那个框框,会变成 的问题输入框也说不定。
另外,从人机交互的角度看,随着 对人类语言的理解越来越出色,语音助手的智能程度应该也会得到大幅度提升。未来机器能够帮助人类做的事情会越来越多。
3. 做出 需要什么?
前面说未来 可能会取代搜索引擎,那是不是对谷歌和百度这些公司非常不利呢?
我不这么认为。
首先我们看下要做出 需要什么?
主要是三方面:技术,算力和数据。
技术
这一点主要是指 的创作思路和代码,这一点其实是最简单的。
这里的简单并不是指技术简单,而是说,训练 的思路已经发表成论文了,即 。另外 的前身,GPT3 甚至有源码可以参考(版本)。
有源码有思路,很难说 会像芯片技术一样被卡脖子。
算力
训练类 的大语言模型,需要非常多的数据(据说 GPT3 用了 200 倍维基百科的数据),这些文字需要转化成浮点数进行大量运算(可以理解成需要计算数千万亿数亿亿次(瞎掰的,反正很多就是了)乘除法)。一台电脑当然也可以算(如果内存够的话),不过一台电脑可能需要数百甚至上千年才能完成一个版本的尝试。
所以要做出类似 的模型,我们需要非常多计算能力非常强的机器。这么多机器的支出就是一笔不菲的费用。没有十亿级别的投入,很难溅出什么水花。
数据
数据是必不可少的一环。没有足量的数据,多么牛逼的技术,多么天量的算力都无计可施。这里的数据不单指原始数据,还指各种脏数据的清洗和处理能力。
从上面三个要素可以看出,什么样的公司更有可能做出类 的产品?有钱有数据的公司。
小公司根本砸不起这个钱,也搞不到那么多数据。而谷歌百度这类搜索引擎公司,天然有钱有数据。特别是谷歌,技术实力更是牛逼, 其实就是基于谷歌提出的 发展而来的。
所以,虽然 可能会颠覆搜索引擎,但未来做出全民级类 应用的,我认为很可能依然是现有的搜索引擎公司。
至于有语音助手的手机厂商公司,他们的技术能力,拥有的算力,处理的数据规模要远逊于搜索引擎公司,可能性相对不大。
基于这个观点,加上我认为 的商用会是个非常缓慢的过程,对公司价值的影响有限。所以针对最近谷歌的下跌,我的决策是如果谷歌继续下跌,并且我还有闲钱,我会拿非常小的仓位去建观察仓,主要是为了检验自己的认知。
ps.提醒:浏览器巨头没有成为门户网站巨头的,门户网站巨头也没有成为搜索引擎巨头的,未来什么样说不好,我建仓只是为了检验自己的认知。请珍惜自己的金钱,谨慎决策。
4. 我国有戏吗?
昨天看老唐文章,他认为我国在这个领域没戏。理由是数据残缺。
我不太认可。搜索引擎也有敏感词屏蔽,依然不妨碍搜索引擎成为全民级应用;社交软件也有敏感词词汇,依然不妨碍我们每天使用社交软件。
诚然, 需要大量数据输入,但现有中文互联网上未被屏蔽的信息依然是海量的,在绝大部分领域依然能够学得很好。个别领域(如政治)表现弱智根本无伤大雅,不妨碍使用。
从另一个角度看, 的训练也使用了大量中文语料,他们也没办法获得我们被屏蔽的信息,但 在中文上的表现依然令人惊艳。所以所谓「数据残缺」根本不是问题和阻碍。
主要的问题还是充足的算力和数据(充足和残缺不矛盾),以及基于这两者之上的研究调优能力。
另外,还有调侃说 zf 不会允许口无遮拦的机器存在。反驳这一点也很简单,现在的中文互联网上,口无遮拦的网民并不少,通过敏感词屏蔽等方式,中文互联网依然运行得好好的。
如果未来类 的产品真的到了全民应用的时候,只需要把现有的敏感词屏蔽系统接入即可。涉及敏感问题不回答就好了。毕竟我们也不是为了提问敏感问题而用这个的。
我认为,在我国,做出类 的产品的难度要远远小于造芯片的难度。可以期待一下,下个月百度发布的「文新一言」,看效果如何。
。。。
一不小心就说多了,如果觉得有用,欢迎点赞在看转发三连,谢谢认可