chatgpt训练模型容量 Q1：大规模预训练模型（大模型）与小模型的核心区别？相比小模型

默认分类2年前 (2023)发布 admin

555 0 0

原创 | 文BFT机器人

Q1：大规模预训练模型（大模型）与小模型的核心区别？相比小模型，大模型有什么优势？

首先最核心区别在于参数量，例如 GPT-3 参数量达到了 1,750 亿个，是传统深度学习小模型参数量的至少一万倍以上。通过模型的扩大，可以带来提升包括：

图1 预训练大模型在综合大量信息后可以用于多范围任务

图 2 参数量较大的模型在即使在 Few-shot 下也有很好的表现

Q2：因此大规模预训练思路对 AI 应用落地有什么帮助？

小模型时代，商用模型开发会综合考虑调参等研发投入量和带来的商业价值，模型开发出来后能否复用以摊薄研发成本，同时对于部分训练样本量较少的场景，没有很好解决方法。

大模型可以在长尾场景应用落地，降低训练成本、减少数据要求。基于大规模预训练思路，一方面大模型可以应对多个泛化任务，大模型+细分场景微调，更适合长尾落地；另一方面，对于小样本（few shot）训练，大模型也有较好提升。

Q3：GPT-3 等大模型和的关联？

GPT/Bert 等大模型都在自然语言领域应用。而是目前 NLP 领域效果较好的深度学习模型，因此 GPT/Bert 等都使用了。

此前 NLP 模型问题是：例如 RNN、LSTM，基本做法是把一段话拆分成多个单元，然后按前后顺序依次输入，输入的 LSTM 或 RNN 模块可以根据训练中句子的长度进行调整，较短的句子可以通过占位符进行补齐。也就是说当输入第 n 个词的时候，机器仅有前 n-1个词的信息。即实际训练无法充分发挥这些输入之间的关系而导致模型训练结果效果极差。即使尝试用 CNN 解决这个问题，但需要叠加很多层，才能捕捉长远的信息。

图 3 的详细结构

引入了 Self- 自注意力机制：让机器注意到整个输入中不同部分之间的相关性。最大的特点是，可以让每个单元都可以捕捉到整句的信息，这也是 RNN/LSTM 等更早期 NLP 模型无法做到的一点。

Q4：那对于 CV 机器视觉可以有类似 NLP 的提升吗？

实际上 2017 年推出之后，2018 年就有学者将其应用于 CV 图像领域，但当时应用效果未发现相比传统 CNN 等算法有较大提升。当时常见做法是将自注意力和CNN 一起使用，而原有结构基本不变，对于传统卷积神经网络仍有较高依赖。

用在 CV 上的难点。对于一个的，输入元素是一个个的单词，输出是一些元素。自注意力操作中，每个元素需要和每个元素互相进行两两互动，最后算得一个自注意力图，通过加权平均，最后得到输出。由于单元间两两互动，因此复杂度是序列长度的平方，也就是 n^2，在自然语言处理中，一个句子的长度一般就是几百或上千，例如 BERT 为 512 序列长度。

而对于一个比较常见的 224 x 224 大小的图片，如果直接以每一个像素点为单位进行两两互动的话，那序列长度为 50176，大概为 BERT 序列长度的 100 倍，因此复杂度极高。

chatgpt训练模型容量 Q1：大规模预训练模型（大模型）与小模型的核心区别？相比小模型

但在 2021 年后，随着 swin 、mae 等论文推出，在 CV和跨模态等应用增加。

图 4 图像分类任务中使用取得了较好的结果

例如 2021 年将尝试将自注意力机制和直接应用在图像领域。在不依赖 CNN 结构的情况下，如何尽可能地讲 NLP 领域的标配—— 不做修改的迁移到 CV 领域，并取得了较好的效果。

图 5 2021 年的论文的核心思路

例如 2022 年引入的 MAE 方法。 (MAE)方法是随机 mask（遮罩）掉一部分像素，能极大加速模型的训练速度并提升准确率。由于语言的信息密度更高，mask 部分文字可能使得语义完全不同；而图像的冗余度就很高，因此 mask 掉部分信息可以大大减少冗余。

图 6 MAE 的核心思路

因此，国内擅长 CV 的 AI 公司，在 2022 年前对于基于的大模型关注投入较少，但是我们认为随着 VIT 等效果提升，应用类的 CV 公司也会开始关注并投入大模型。

Q5：为何 GPT-3 在 2020 年就推出了，而资本市场近期才开始对大模型高关注？

2020 年的 GPT-3 仍有较多缺陷，其中无法商用的最大问题是输出结果有毒或不真实， 2022 年 1 月正式公开了改良版。比 GPT-3 小了 100 多倍，仅有 13亿个参数。使用了一种通过人类反馈来强化学习 (RLHF) 的现有技术。根据用户和 API 的交互结果，对模型的多个输出进行了排名，然后再利用这些数据微调GPT-3，大幅减少了有毒结果的输出。

图 8 GPT-3 最被诟病的毒的结果（）在中减少

因此，我们现在看到的可以优化负面结果，比如提问“如何闯空门”，机器会回答“这并不合适”，同时连贯对话也更加流畅，达到了可以商用的效果。

同样的情况在 AIGC 图片生成领域也存在。2021 年 OPEN AI 就推出了图片生成工具包 DALL-E，但是此时图像像素仍然较低。2022 年后，OPEN AI 进一步引入等方式，使得图片像素提升 4 倍以上，且同时模型真实度可以维持，并在此基础上推出全新工具包 DALL-E2。此时较高像素下生成的图片可以开始达到商用的效果。

图 9 DALL·E 设计“一颗白菜穿着芭蕾舞裙在遛狗”

图 10 DALL·E -2 设计“一碗汤是另一个次元的入口

chatgpt训练模型容量 Q1：大规模预训练模型（大模型）与小模型的核心区别？相比小模型

Q6：为何也有人认为 GPT 等大模型并未对 NLP 做出颠覆式创新？

传统 NLP 最大缺陷，即自然语言理解、缺乏逻辑等问题，在 GPT中仍未被解决。GPT等模型依赖于大规模离线收集的语料进行训练，但是对于在线提供的即时信息，往往并不能进行充分理解并且纳入自己的回复中。更进一步的，对于对话中提供的因果关系，也往往缺乏很好的理解能力。

例如提问：韩梅梅喜欢画画，她的儿子也是。李华是韩梅梅唯一的儿子。所以李华喜欢画画吗？：不太清楚李华是否喜欢画画。

此外，GPT 会给出部分问题貌似合理但不正确或荒谬的答案，或者过度使用一些词句和特定表达，同时缺乏类似人类的举一反三的能力等。

Q7：国内大模型做的怎样？如何看待中美技术差距。

首先，需要承认这一类大模型底层创新在美国开始，包括 2017 年《 All You Need》首次提出了 NLP 模型，的 GPT-3 等。中国在 2021年后加速追赶，尤其是在 CV 大模型和多模态融合。

据国内开源社区统计，目前，在全球超千亿参数的大模型中，中国企业或机构贡献了 1/3，美国贡献了 1/2，世界其他国家或组织贡献了剩下的 1/6。

此前国内大部分视觉类AI公司都以小模型路线为主，投入大模型研发较多的包括百度、华为等，优势可能会在多模态融合。

图 11 大模型/小模型两类公司路线区别

百度文心大模型：NLP+CV，基本实现跨模态和多下游应用。

应用场景涵盖：NLP 大模型、CV 大模型、跨模态大模型、生物计算大模型、行业大模型。API 包括了：1）.0 文本理解与创作：预置作文生成、文案创作、情感分析等任务提示，2）ERNIE-ViLG AI作画大模型，3）PLATO 大模型开放域对话服务。

图 12 百度文心大模型和多行业工具平台

华为盘古大模型：最大中文语言预训练模型。

2021 年 4 月华为发布千亿参数 40TB 训练数据的全球最大中文语言（NLP）预训练模型，30 亿参数的全球最大视觉（CV）预训练模型。将 P-、等最新技术融入到盘古的微调框架中，提升微调效果；在样本极少的情况下，盘古的少样本学习能力远超 GPT 系列和 BERT 系列；要得到相同的 F1结果，盘古所需的数据量仅为中文 GPT-3 的 1/9，实现了近 10 倍的生产效率提升。

Q8：怎样的公司有机会参与大模型底层技术研发？

我们认为大模型对存储、算力要求极高，且对于开发者对深度学习框架使用也有要求，普通机构难以复现。

据估算，如果要训练 GPT-3 ，即使单个机器的显存 / 内存能装得下，用 8张 V100 的显卡，训练时长预计要 36 年；即使用 512 张 V100 ，训练也需要将近 7 个月；如果拥有 1024 张 80GB A100，那么完整训练 GPT-3 的时长可以缩减到 1 个月。

以微软与合作建造的 Azure A 工智能算力平台为例，该算力平台投资约 10亿美元，使用该超算中心训练一次超大模型 GPT-3 大约花费 1200 万美元。

同时解决分布式训练问题：上百台服务器之间的通信、拓扑、模型并行、流水并行等问题，模型训练是显存峰值问题。

因此 GPT-3 发布一年后，只有、微软等大企业可以复现。