chatgpt持续更新模型 大力出奇迹:大模型+大数据+高算力,ChatGPT不断突破

默认分类1年前 (2023)发布 admin
5,022 0
ChatGPT国内版

大力出奇迹

(1)预训练大模型:GPT 大模型是 的基础,目前已经过多个版本迭代, GPT-3 版本参数量达 1750 亿,训练效果持续优化。

(2)数据:数据是预训练大模型的原材料。GPT-3 数据主要来自 Crawl、新闻、帖子、书籍及各种 网页,原始数据规模达 45TB,训练效果大幅提升。

(3)算力:微软 是 独家云计算供应商,所用超算拥有 285,000 个 CPU内核、约 10,000 个GPU。在大模型、大数据和高算力的支撑下, 技术持续突破,表现惊艳。

chatgpt持续更新模型 大力出奇迹:大模型+大数据+高算力,ChatGPT不断突破

是以 为基础的预训练模。GPT全称 Pre- ,即生成式预训练 模型。预训练模型是指通过挖掘利用大模无标注数据,学习数据中的知识与规律,然后针对特定任务,通过微调、手工调参等阶段,进入到可以大规模、可复制的大工业落地阶段。 模型来自谷歌 2017 年发表的论文《 is all you need》,是一种采用自注意力机制的深度学习模型,模型按照输入数据各部分的重要性的不同而分配不同的权重。 的优势在于:(1)采用并行训练,大幅提高了训练效率;(2)在分析预 测更长的文本时, 对间隔较长的语义具有更好的关联效果。

由 GPT-3 微调而来,模型更小,专注于聊天场景。对比来看,GPT-3 是一种大型通用语言模型,可以处理各种语言处理任务, 是一个较小的专用模型,专为聊天应用程序设计。 训练包括三个步骤:(1)预训练一个语 言模型 (LM) ;(2)聚合问答数据并训练一个奖励模型 (,RM) ;(3) 用强化学习 (RL) 方式微调 LM。此外,因为引入了代码作为训练语料, 还额外产生了自动写代码和理解代码的能力。

通过 RLHF 优化训练结果。 基于人类反馈强化学习(RLHF), 通过众包团队大规模开展生成结果好坏的人工标注,经过多次迭代,使得大模型生 成结果更加无偏见和符合人类预期,实现了“智慧涌现”的效果。

chatgpt持续更新模型 大力出奇迹:大模型+大数据+高算力,ChatGPT不断突破

局限:(1) 的知识有限。 的预训练数据库只更新 至 2021 年,无法进行联网更新,因此不能理解和回答 2021 年之后发生的事情;(2) 真实性无法保障。 的部分训练是基于从互联网上搜集的数据,因此它的输 出结果经常受到偏见和不准确信息的影响,无法保证真实性。

数据主要来自 Crawl、新闻、帖子、书籍及各种网页。 Crawl、网页、书籍、维基百科对于训练的贡献量分别为 60%、22%、16%、3%。英 文维基百科全部内容包含约 30 亿 ,仅占到训练数据量的 3%。

Crawl 是一个由网络爬取产生的大型免费语料库,数据规模达 PB 级。 Crawl(CC)是一个从网络抓取数据并免费开放的非盈利组织,数据库包含 了 2008 年以来的原始网页、元数据和抓取文本,数据规模达 PB 级别,其中英文数 据占比约 45%,中文数据占比约 5%。CC 数据库的应用场景包括训练 NLP 模型、网 络抓取和机器学习等,CC 数据库对于 AI 的意义堪比 对于互联网的意义,重点研究实验室一般会选取纯英文过滤版(C4)作为数据集。

微软 是 独家云计算供应商。根据 Open AI 于 2018 年的统计, 自 2012 年以来,AI 训练任务所运用的算力每 3.43 个月就会翻倍,算力需求每年长 10 倍。 训练的硬件为超级计算机,2019 年,微软向 投资 10 亿美元, 双方将共同开发 超算技术,微软也成为 独家云计算供应商。 提供训练的超级计算机拥有约 285,000 个CPU 内核、约 10,000 个GPU,每个 GPU 服务器拥有约 400GB/s 的网路连接速度。

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...