部署chatgpt预训练模型从大数据的角度看ChatGPT

默认分类2年前 (2023)发布 admin

4,534 0 0

引起业界的极大关注，作为大数据技术研究人员，更希望从大数据的角度来看待，毕竟在大数据驱动的人工智能时代，此类大模型没有大数据，就如同机器没有电一样。

根据的解释，是的兄弟模型，两者非常相似，不同之处仅在于训练模型的数据量。目前关于的技术文档比多一些，因此，我们从文档中关于数据部分的描述可以看看。关于、和GPT-3的关系及技术差别见本文最后，这里先将模型的训练数据，包括互联网大数据和对话相关的数据集。下面分别介绍数据集、处理方法、以及爬虫作用。

互联网大数据及处理

模型最主要的数据是互联网大数据，是来 Crawl 的部分数据，共1万亿个词汇、570G，覆盖了2016-2019年间的互联网文本数据，包括HTML、word、pdf等等各类型。这些数据可通过亚马逊的云计算服务进行访问，据说只需25美元就可以设置一个亚马逊帐户获取这些抓取数据。从页面语言来看，最多的是英文，共有15亿个页面（根据2022年某个月抓取的页面统计）。截至2021年12月,我国网页数量为3350亿个，2021年比2020年增加195亿个页面，每个月新增加16.2亿，因此 Crawl 收录的中文页面大概不超过总数的10%。除此以外，还有来自英文和基于互联网的两个图书库（具体未知）。

从这里，我们也可以看出，由于训练数据将近50%是英文，在经过多层模型学习后，最终也可能学习到一些所谓“价值观”的高层特征，因此在新的AI时代文化安全更加富有挑战性。

对数据集进行了两个主要的处理，即低质量页面过滤、页面相似性去重，以避免过拟合。这也是采用互联网大数据进行机器学习不可少的步骤。页面质量过滤时，采用的是机器学习方法。选择作为高质量文档类，训练一个文档质量分类器（逻辑回归分类器+Spark的标准切分和作为特征表示），训练好的分类器用于对的文档进行质量过滤。页面去重时，使用和该质量分类器相同的文档特征表示，利用Spark的进行文档相似性计算，大概排除了10%的相似页面，有利于减小相似文档导致的模型过拟合，以及降低模型训练复杂度。

部署chatgpt预训练模型从大数据的角度看ChatGPT

支持对话的相关数据集

GPT-3有很强的上下文表示能力，但缺乏用户交互行为的学习。模型引入了强化学习和监督学习来理解用户意图，正是由于有了很好的意图理解能力，我们和的对话才能显得自如。相应的支持训练数据主要有：

（1） SFT数据集：由标注人员对用户输入提示行为进行标注，共13K个训练提示，该数据集用于微调GPT-3，采用监督学习方法 fine- (SFT)。

（2） RM数据集：标注者对给定输入的预期输出进行排序，共33K个记录，数据集用于训练奖励模型 (RM)以预测人类想要的输出。

（3） PPO数据集：没有标注，用于RLHF（g from human ，从人类反馈中获得的强化学习）微调。

正是由于这些数据集的引入，使得在多轮会话中，能够有效地理解我们的意图，这点倒是AI一个很大的进步。这里我们也可以看到在AI时代标注之类的劳动密集型工作留给人类来做，按此趋势人类大脑退化不是没有可能的，哈哈~

部署chatgpt预训练模型从大数据的角度看ChatGPT

、GPT-2、关系介绍

是于2022年初发布的语言模型，可以看作是一个经过微调的新版本GPT-3，它的新在于可以尽量减少有害的、不真实的和有偏差的输出。吸取了的Tay在使用来自的开放数据进行训练后出现的种族倾向错误。这个是人工智能安全的视角，在信息化进入智能化后，安全升级为第一要位，没有安全也就没有AI应用，自动驾驶就是很好的例子。当然目前这个架构，还很容易受到数据投毒攻击，后续有空我再写一篇人工智能安全视角下的。

这个模型比GPT-3小了100多倍，仅有13亿个参数，比GPT-2还少。与之前各类语言模型不同的是，是为对话构建的大型语言模型，也可以称之为对话语言模型吧，因此该模型的设计目标之一是能够让模型知道人类的意图。因此，主要技术是通过结合监督学习+从人类反馈中获得的强化学习（RLHF，g from human ），提高GPT-3的输出质量。

爬虫的作用

尽管目前还是利用他人爬虫数据集，但是作为一个独立成长的AI系统，将来免不了自己采集，否则难于跟上用户变化。虽然进入了 AIGC时代，但是 UGC仍然长期存在，否组用AIGC去训练AI，那就相当于自己拉的si自己吃了，最终免不了病态。当然并非否定AIGC，它作为一种辅助数据增强的手段还是非常受到大家的欢迎。

从这个角度看它和搜索引擎有一定相似地方，才会有很多人认为它是搜索引擎的增强或者将来要代替搜索引擎了。搜索引擎只是将爬虫抓来的页面提取、解析后进行逆向索引，然后存储关键词和页面的对应关系即可为用户提供匹配服务，而技术手段要更深刻很多了，语义理解、大数据技术、监督学习、强化学习以及意图理解等等。不过搜索引擎公司所拥有的页面数据比所使用的大数据集要大很多，将来自己定制一个对话语言模型是很有基础的，希望不久baidu能出品。

转载请注明：本文来自互联网大数据处理技术与应用公众号。欢迎针对文中提到的一些观点一起讨论，后台留言。