谷歌chatgpt网页被屏蔽聊聊 chatGPT ：原理？革谁的命？需要什么？我国有戏吗？

默认分类2年前 (2023)发布 admin

3,551 0 0

ChatGPT国内版

先同步下本周持仓和收益情况。

当前持仓：

收益情况：

。。。

要说最近最火的，莫过于了。

我是去年 12 月份左右注意到的，当时小吃了一惊，但没太当回事，因为回答问题，写代码，甚至写作文这种事，2020 年的 GPT3 就已经能做到了。所以确实没想到后面能这么火爆。

最近看到一些人对有很多不切实际的幻想或期望，甚至有些害怕。消除恐惧的方式是去了解它，了解了它的运行方式，也许你就能判断它能做什么，不能做什么了。

我自己毕业前，实习的经历都是 NLP（自然语言处理）相关的，的底层模型（这个算是一个大突破，影响了非常多领域，提出的，GPT 中的 T 就是这个） 2017 年刚提出时，我也应用了一把，做了个自动生成文章标题的工具。

毕业后虽然换了方向，但也保持着对对话系统领域的关注，所以针对有些想法，可以简单科普/分享下，也许对大家看待会有所帮助。

1. 语言模型

其实是一种大语言模型。什么是语言模型呢？

不讲公式，不讲理论，我就举个极简版本的例子。

给定以下的文字数据：

知识改变命运

知识改变行动

一个最简单的语言模型就是，给定前缀，选择后续出现概率最大的字作为后续。

比如，如果一句话已经有了「知识」作为开头，那么「知识」后面什么字出现的频率最高呢？是「改」字；

「改」字接上后，这句话就变成了「知识改」，继续，「知识改」后面出现什么字的频率最高呢？是「变」字；

依此类推，按照这个「规则」，机器可以给我们生成一个完整的句子：「知识改变命运」或「知识改变行动」。

这就是「生成式语言模型」，中的 G 就是「生成式」的意思。

道理就这么简单，事实上，初期的语言模型就是基于统计学的，用到的语料也比上面我举的例子大十万倍百万倍。

后续的发展基本上是这个路线：统计模型 -> RNN -> -> BERT -> GPT -> ，这些词语不需要了解，只需要知道这个过程中，模型越来越复杂，用的数据越来越多就行，但道理是类似的。

了解了这些，我们就知道，语言模型学习的是人类已有文字中的范式，对于人类也不知道的事情（比如明天股价涨跌，茅台什么时候提价等），就不要奢望能够给你靠谱的答案了。

同理，如果你想考倒，问一些非常偏门的几乎没人问过的问题就行了。比如各种沙雕没用问题

谷歌chatgpt网页被屏蔽聊聊 chatGPT ：原理？革谁的命？需要什么？我国有戏吗？

。

如果你想更深入的了解语言模型和，推荐看下面这个视频（观看门槛不高，放心观看）：

上面的介绍还是比较客观的知识科普，下面我想谈一下自己主观的思考，可能不对，你就当我是做个记录吧。

2. 革谁的命？

的推出到底会颠覆什么呢？有人说会革搜索引擎的命，有人说的诞生类似于浏览器的诞生。

我认为，首先是信息检索领域的一大进步。

自互联网诞生以来，信息检索就是一个非常重要的问题：全世界网页/信息那么多，人们该如何从浩瀚的网页中得到自己想要的内容呢？

诞生之前，主动信息检索的发展过程是：浏览器->门户网站->搜索引擎。（推荐系统也是信息检索的一种方式，不过是被动的）。

浏览器

浏览器的诞生大大提高了互联网的信息检索效率，人们可以通过输入一串网址来访问互联网的不同内容。不方便的点在于，你需要事先知道什么网址有什么内容才能找到自己想要的。

门户网站

门户网站其实没什么技术上的突破，它只是一个特殊的中继网站，用来跳转到其他网站。这个网站把常用的网址分门别类，让用户更容易找到自己需要的网址。不方便的点在于，门户网站收录的网址有限，只能满足大部分用户常用的需求。

搜索引擎

搜索引擎则更进一步，满足用户更个性化更长尾的需求：需要什么，搜一下就行了。门户网站不可能收入全世界所有网址，但搜索引擎可以。到这一步，信息检索的效率被进一步提升。不方便的点在于，搜索出来的结果有非常多，还需要用户自己去选择什么信息是有用的。

可以看到，从信息检索工具的视角看，弥补了搜索引擎的缺陷：它直接呈现给用户有用的信息，不再需要用户自己去挑选和判断了。

从这个角度看，带来的是信息检索效率的大幅度提升，信息检索效率的提升也会带来生产力的提升。

如果你的工作中经常需要查资料，用搜索引擎的话，应该体会会比较深。

在查资料的过程中，有一部分时间会“浪费”在「搜词->逐个点开网页->判断是否有用->多个网页都没有自己想要的信息->换个搜索词->重复前面的步骤」上。如果能够把这些时间节省下来，那么每个人的工作效率会大幅度提升。

所以，从上面的逻辑来说，说的诞生类似于浏览器的诞生也好，类似于门户网站，搜索引擎的诞生也好，都没问题。

按这个路线，个人认为对搜索引擎的威胁是最大的。也许未来，搜索引擎的那个框框，会变成的问题输入框也说不定。

另外，从人机交互的角度看，随着对人类语言的理解越来越出色，语音助手的智能程度应该也会得到大幅度提升。未来机器能够帮助人类做的事情会越来越多。

3. 做出需要什么？

前面说未来可能会取代搜索引擎，那是不是对谷歌和百度这些公司非常不利呢？

我不这么认为。

首先我们看下要做出需要什么？

主要是三方面：技术，算力和数据。

谷歌chatgpt网页被屏蔽聊聊 chatGPT ：原理？革谁的命？需要什么？我国有戏吗？

技术

这一点主要是指的创作思路和代码，这一点其实是最简单的。

这里的简单并不是指技术简单，而是说，训练的思路已经发表成论文了，即。另外的前身，GPT3 甚至有源码可以参考（版本）。

有源码有思路，很难说会像芯片技术一样被卡脖子。

算力

训练类的大语言模型，需要非常多的数据（据说 GPT3 用了 200 倍维基百科的数据），这些文字需要转化成浮点数进行大量运算（可以理解成需要计算数千万亿数亿亿次（瞎掰的，反正很多就是了）乘除法）。一台电脑当然也可以算（如果内存够的话），不过一台电脑可能需要数百甚至上千年才能完成一个版本的尝试。

所以要做出类似的模型，我们需要非常多计算能力非常强的机器。这么多机器的支出就是一笔不菲的费用。没有十亿级别的投入，很难溅出什么水花。

数据

数据是必不可少的一环。没有足量的数据，多么牛逼的技术，多么天量的算力都无计可施。这里的数据不单指原始数据，还指各种脏数据的清洗和处理能力。

从上面三个要素可以看出，什么样的公司更有可能做出类的产品？有钱有数据的公司。

小公司根本砸不起这个钱，也搞不到那么多数据。而谷歌百度这类搜索引擎公司，天然有钱有数据。特别是谷歌，技术实力更是牛逼，其实就是基于谷歌提出的发展而来的。

所以，虽然可能会颠覆搜索引擎，但未来做出全民级类应用的，我认为很可能依然是现有的搜索引擎公司。

至于有语音助手的手机厂商公司，他们的技术能力，拥有的算力，处理的数据规模要远逊于搜索引擎公司，可能性相对不大。

基于这个观点，加上我认为的商用会是个非常缓慢的过程，对公司价值的影响有限。所以针对最近谷歌的下跌，我的决策是如果谷歌继续下跌，并且我还有闲钱，我会拿非常小的仓位去建观察仓，主要是为了检验自己的认知。

ps.提醒：浏览器巨头没有成为门户网站巨头的，门户网站巨头也没有成为搜索引擎巨头的，未来什么样说不好，我建仓只是为了检验自己的认知。请珍惜自己的金钱，谨慎决策。

4. 我国有戏吗？

昨天看老唐文章，他认为我国在这个领域没戏。理由是数据残缺。

我不太认可。搜索引擎也有敏感词屏蔽，依然不妨碍搜索引擎成为全民级应用；社交软件也有敏感词词汇，依然不妨碍我们每天使用社交软件。

诚然，需要大量数据输入，但现有中文互联网上未被屏蔽的信息依然是海量的，在绝大部分领域依然能够学得很好。个别领域（如政治）表现弱智根本无伤大雅，不妨碍使用。

从另一个角度看，的训练也使用了大量中文语料，他们也没办法获得我们被屏蔽的信息，但在中文上的表现依然令人惊艳。所以所谓「数据残缺」根本不是问题和阻碍。

主要的问题还是充足的算力和数据（充足和残缺不矛盾），以及基于这两者之上的研究调优能力。

另外，还有调侃说 zf 不会允许口无遮拦的机器存在。反驳这一点也很简单，现在的中文互联网上，口无遮拦的网民并不少，通过敏感词屏蔽等方式，中文互联网依然运行得好好的。

如果未来类的产品真的到了全民应用的时候，只需要把现有的敏感词屏蔽系统接入即可。涉及敏感问题不回答就好了。毕竟我们也不是为了提问敏感问题而用这个的。

我认为，在我国，做出类的产品的难度要远远小于造芯片的难度。可以期待一下，下个月百度发布的「文新一言」，看效果如何。

。。。

一不小心就说多了，如果觉得有用，欢迎点赞在看转发三连，谢谢认可

# 默认分类 # 引擎 # 搜索 # 检索 # 模型 # 门户

© 版权声明

文章版权归作者所有，未经允许请勿转载。

广告也精彩

相关文章

chatgpt 模仿网页代码生成新的网页别被火爆全网的ChatGPT“骗了”

admin

56 0

可以进行ai绘画的软件最强 AI 绘画软件 Stable Diffusion 超实用教程来了！

admin

636 0

ai软件镜像 UCloud上线多款主流大模型镜像，提供“模型+算力”一站式服务

admin

3,045 0

ai软件的用处制造业如何用好AI？看台积电怎么做

admin

5,034 0

可以直接用chatgpt的ai模型吗百度发布AI插件平台，大模型有了手和脚

admin

51 0

chatgpt 量化交易平台体验软件 chatgpt定制量化交易策略(用chatgpt做量化策略)

admin

4,038 0

暂无评论

暂无评论...

323AI导航网（323ai.com）—— 精选全球实用AIGC工具箱。 AI人工智能爱好者使用学习必备导航网站，收录了国内外5000+优质AI实用工具网址，一个专业、全面、实用的AIGC工具与AI资讯导航网站，我们聚焦于最新的AI文本、AI绘画、AI视频、ChatGPT、Stable-Diffusion、Midjourney等AI项目，帮助用户发现最前沿的AIGC项目，探索人工智能的无限可能。

友链申请免责声明广告合作关于我们

Copyright © 2025 323AI导航网陕ICP备2023007327号-3