chatgpt 优化参数 YYDS！克隆ChatGPT，开源模型完整复现，杀疯了！

默认分类2年前 (2023)发布 admin

1,050 0 0

以、GPT4 为代表的 AI 应用和大模型火爆全球，被视为开启了新的科技工业革命和 AGI （通用人工智能）的新起点。不仅科技巨头间你追我赶，争相推出新品，许多学术界、工业界的 AI 大佬也纷纷投入投身相关创业浪潮。生成式 AI 正以“天”为单位，快速迭代，持续狂飙！

然而，并未将其开源，它们背后的技术细节有哪些？如何快速跟进、追赶并参与到此轮技术浪潮中？如何降低 AI 大模型构建和应用的高昂成本？如何保护核心数据与知识产权不会因使用第三方大模型 API 外泄？

作为当下最受欢迎的开源 AI 大模型解决方案，-AI 率先建立了包含监督数据集收集->监督微调->奖励模型训练->强化学习微调的完整 RLHF 流程，以 LLaMA 为基础预训练模型，推出，是目前最接近原始技术方案的实用开源项目!

包含以下内容

1、Demo：可直接在线体验模型效果，无需注册或、训练代码：开源完整 RLHF 训练代码，已开源至含 7B 和 13B 两种模型3、数据集：开源 104K 中、英双语数据集4、推理部署：4bit 量化推理 70 亿参数模型仅需 4GB 显存5、模型权重：仅需单台服务器少量算力即可快速复现6、更大规模模型、数据集、其他优化等将保持高速迭代添加

平价模型，强大能力

仅需不到百亿参数，在大语言模型的基础上进行RLHF微调，即可掌握中、英双语能力，达到与和 GPT-3.5 类似的效果。

例如常识问答：

中文应答：

写一封邮件：

写个算法：

完整克隆方案

尽管和 GPT-4 等 GPT 系列模型非常强大，但是它们不太可能被完全开源。幸运的是，开源社区一直在不断努力。

例如 Meta 开源了 LLaMA 模型，该模型的参数量从 70 亿到 650 亿不等，130 亿参数即可胜过 1750 亿的 GPT-3 模型在大多数基准测试的表现。但是由于没有被指令微调（），因此实际生成效果不够理想。

斯坦福的通过调用 API，以 self- 方式生成训练数据，使得仅有 70 亿参数的轻量级模型以极低成本微调后，即可获得媲美 GPT-3.5 这样千亿参数的超大规模语言模型的对话效果。

但是现有开源方案都可以被视为只得到了人类反馈强化学习（RLHF）中第一步的监督微调模型，没有进行后续的对齐和微调工作。同时的训练数据集过小，语料只有英文，也在一定程度上限制了模型的性能。

而和 GPT-4 的惊艳效果，还在于将 RLHF 引入训练过程，使得生成内容更加符合人类价值观。

RLHF的三个阶段

基于 LLaMA 模型，-AI 首个开源包含完整 RLHF 流程的类Chat模型复现方案，是目前最接近原始技术路线的实用开源项目!

训练数据集开源

开源了包含约 10 万条问答的中、英双语数据集。该数据集收集并清洗了社交平台上人们的真实提问场景作为种子数据集，利用 self- 技术扩充数据，花费约 900 美元进行标注。对比其他 self- 方法生成的数据集，该数据集的种子数据更加真实、丰富，生成的数据集涵盖的话题更多。该数据可以同时用于微调和 RLHF 训练。通过高质量的数据，能进行更好地对话交互，同时支持中文。

数据集收集流程

RLHF算法复现

RLHF- 是 -，即使用上文提到的数据集进行模型微调。

RLHF- 训练了奖励模型，它通过对于同一个的不同输出进行人工排序，得到对应分数，监督训练奖励模型。

RLHF- 使用了强化学习算法，是训练流程中最复杂的一部分：

chatgpt 优化参数 YYDS！克隆ChatGPT，开源模型完整复现，杀疯了！

RLHF-算法流程图

在 PPO 部分，分为两个阶段进行：首先是 Make 部分，利用 SFT 、Actor、RM、模型计算生成存入中；之后是参数更新部分，利用计算策略损失和价值损失。

在 PTX 部分，计算 Actor 输出和输入语料的回答部分的交叉熵损失函数，用来在 PPO 梯度中加入预训练梯度，以保持语言模型原有性能防止遗忘。最后将策略损失、价值损失和 PTX 损失加和进行反向传播和参数更新。

快速上手

开源了基于 LLaMA 模型，复现训练三个阶段的完整代码。

第一阶段，训练 SFT 模型：

–=.py

–“/path/to/LLaMa-7B/”

–model'llama'

–ero2

—

–/path/to/Coati-7B

–/path/to/data.json

—

–lr2e-5

第二阶段，训练奖励模型：

–=.py

–“/path/to/LLaMa-7B/”

–model'llama'

–ero2

–/path/to/

第三阶段，使用 RL 训练：

–=..csv

–ero2

–“/path/to/Coati-7B”

–model'llama'

–/path/to/

chatgpt 优化参数 YYDS！克隆ChatGPT，开源模型完整复现，杀疯了！

在获得最终模型权重后，还可通过量化降低推理硬件成本，并启动在线推理服务，仅需单张约 4GB 显存的 GPU 即可完成 70 亿参数模型推理服务部署。

.py/path/to/—-/path/to/coati-7b-4bit-128g.pt–

系统性能优化与开发加速

能够快速跟进完整 RLHF 流程复现，离不开 AI 大模型基础设施 -AI 及相关优化技术的底座支持，相同条件下训练速度相比采用的 FSDP(Fully Data )可提升三倍左右。

系统基础设施-AI

AI 大模型开发系统 -AI 为该方案提供了基础支持，它可基于高效快速部署 AI 大模型训练和推理，从而降低 AI 大模型应用的成本。-AI 由加州伯克利大学杰出教授 James 和新加坡国立大学校长青年教授尤洋领导开发。自从它开源以来，-AI 已经多次在热榜位列世界第一，获得 Star 约两万颗，并成功入选 SC、AAAI、PPoPP、CVPR、ISC 等国际 AI 与 HPC 顶级会议的官方教程。

减少内存冗余的ZeRO +

-AI 支持使用无冗余优化器 (ZeRO) 提高内存使用效率，低成本容纳更大模型，同时不影响计算粒度和通信效率。自动 Chunk 机制可以进一步提升 ZeRO 的性能，提高内存使用效率，减少通信次数并避免内存碎片。异构内存空间管理器支持将优化器状态从 GPU 显存卸载到 CPU 内存或硬盘空间，以突破 GPU 显存容量限制，扩展可训练模型的规模，降低 AI 大模型应用成本。

使用LoRA低成本微调

-AI 支持使用低秩矩阵微调（LoRA）方法，对 AI 大模型进行低成本微调。LoRA 方法认为大语言模型是过参数化的，而在微调时，参数改变量是一个低秩矩阵。因此，可以将这个矩阵分解为两个更小的矩阵的乘积。在微调过程中，大模型的参数被固定，只有低秩矩阵参数被调整，从而显著减小了训练所需的参数量，并降低成本。

低成本量化推理

GPTQ量化

为降低推理部署成本，-AI 使用 GPTQ 4bit 量化推理。在 GPT/OPT/BLOOM 类模型上，它比传统的RTN(rount-to-) 量化技术能够获得更好的效果。相比常见的 FP16 推理，它可将显存消耗降低75%，只损失极少量的吞吐速度与性能。

以 -7B 为例，在使用 4bit 量化推理时，70 亿参数模型仅需大约 4GB 显存即可完成短序列（生成长度为 128 ）推理，在普通消费级显卡上即可完成（例如 RTX 3060 ），仅需一行代码即可使用。

.quant=='4bit':

model=(args.,args.,4,args.)

如果采用高效的异步卸载技术()，还可以进一步降低显存要求，使用更低成本的硬件推理更大的模型。

和的区别

1. 开源了第一个完整的RLHF ，斯坦福没有做RLHF，也就是没有做Stage 2 和Stage 3。

2. 采用了更多的指令数据，质量更好，范围更大，并使用强化学习做使回答更接近人类。

3. 训练流程集成了的诸多系统优化，同等数据集和模型大小我们的训练速度可以比的代码快3倍左右，让科研人员和中小企业也能独立训练部署自己的会话系统。

4.团队自己采集了更多数据集：训练的英文一共 24M ，中文大约 30M ，总共约 54M 。其中自己收集的数据集英文 6M，中文 18M 。