chatgpt用多少数据进行训练训练个中文版ChatGPT没那么难：不用A100，开源Alpaca

默认分类2年前 (2023)发布 admin

1,054 0 0

©作者 |机器之心编辑部

来源 |机器之心

-LoRA 将微调类模型的算力需求降到了消费级，训练个自己的中文对话模型真就没那么难了。

2023 年，聊天机器人领域似乎只剩下两个阵营：「的」和「其他」。

功能强大，但几乎不可能将其开源。「其他」阵营表现欠佳，但不少人都在做开源方面的努力，比如前段时间 Meta 开源的 LLaMA。

LLaMA 是一系列模型的总称，参数量从 70 亿到 650 亿不等，其中，130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过参数量达 1750 亿的 GPT-3。不过，该模型并没有经过指令微调（），因此生成效果较差。

为了提高模型性能，来自斯坦福的研究者帮助其完成了指令微调的工作，训练了一个名为（羊驼）的 70 亿参数新模型（基于 LLaMA 7B）。具体来说，他们让的 text–003 模型以 self- 方式生成 52K 指令遵循（-）样本，以此作为的训练数据。实验结果表明，的很多行为都与 text–003 类似。也就是说，只有 7B 参数的轻量级模型性能可媲美 GPT-3.5 这样的超大规模语言模型。

对于普通研究者来说，这是一种切实可行的廉价微调方式，不过需要的运算量仍然较大（作者表示他们在 8 个 80GB A100 上微调了 3 个小时）。而且，的种子任务都是英语，收集的数据也都是英文，因此训练出来的模型未对中文优化。

为了进一步降低微调成本，另一位来自斯坦福的研究者 ——Eric J. Wang 使用 LoRA（low-rank ）技术复现了的结果。具体来说，Eric J. Wang 使用一块 RTX 4090 显卡，只用 5 个小时就训练了一个和水平相当的模型，将这类模型对算力的需求降到了消费级。而且，该模型可以在树莓派上运行（用于研究）。

▲LoRA 的技术原理。LoRA 的思想是在原始 PLM 旁边增加一个旁路，做一个降维再升维的操作，来模拟所谓的 rank。训练的时候固定 PLM 的参数，只训练降维矩阵 A 与升维矩阵 B。而模型的输入输出维度不变，输出时将 BA 与 PLM 的参数叠加。用随机高斯分布初始化 A，用 0 矩阵初始化 B，保证训练的开始此旁路矩阵依然是 0 矩阵（引自：）。LoRA 的最大优势是速度更快，使用的内存更少，因此可以在消费级硬件上运行。

▲Eric J. Wang 发布的 -LoRA 项目

项目地址：

对于想要训练自己的类模型（包括中文版类）但又没有顶级算力资源配置的研究者来说，这无疑是一大惊喜。因此，在 -LoRA 项目问世后，围绕该项目的教程和训练成果不断涌现，本文将介绍其中的几个。

如何使用-LoRA微调LLaMA

在 -LoRA 项目中，作者提到，为了廉价高效地进行微调，他们使用了 Face 的 PEFT。PEFT 是一个库（LoRA 是其支持的技术之一），可以让你使用各种基于的语言模型并使用 LoRA 对其进行微调。好处在于，它允许你在一般的硬件上廉价而有效地微调模型，并有较小的（也许是可组合的）输出。

在近期的一篇博客中，几位研究者介绍了如何使用 -LoRA 来微调 LLaMA。

使用 -LoRA 之前，需要具备一些先决条件。首先是 GPU 的选择，得益于 LoRA，现在你可以在 T4 这样低规格 GPU 或 4090 消费级 GPU 上完成微调；此外，你还需要申请 LLaMA 权重，因为其权重并不对外公开。

chatgpt用多少数据进行训练训练个中文版ChatGPT没那么难：不用A100，开源Alpaca

先决条件具备了，接下来就是如何使用 -LoRA。首选你需要克隆 -LoRA 存储库，代码如下：

git clone https://github.com/daanelson/alpaca-lora
cd alpaca-lora

其次，获取 LLaMA 权重。将下载到的权重值存储到名为 – 文件夹里，文件夹层次结构就像下面这样：

unconverted-weights
├── 7B
│   ├── checklist.chk
│   ├── consolidated.00.pth
│   └── params.json
├── tokenizer.model
└── tokenizer_checklist.chk

权重存储好后，接着使用以下命令将的权重转换为兼容的格式：

cog run python -m transformers.models.llama.convert_llama_weights_to_hf 
  --input_dir unconverted-weights 
  --model_size 7B 
  --output_dir weights

得到最终的目录结构应该是这样的：

weights
├── llama-7b
└── tokenizermdki

处理好上述两步，来到第三步，安装 Cog：

sudo curl -o /usr/local/bin/cog -L "https://github.com/replicate/cog/releases/latest/download/cog_$(uname -s)_$(uname -m)"
sudo chmod +x /usr/local/bin/cog

第四步来到微调模型，默认情况下，微调脚本上配置的 GPU 功能较弱，但如果你有性能更好的 GPU，则可以在 .py 中将增加到 32 或 64。此外，如果你有指令调优数据集，则可以在 .py 中编辑以指向自己的数据集。需要注意的是这一项操作应该确保数据格式与 .json 相同。接下来运行微调脚本：

cog run python finetune.py

微调过程在 40GB A100 GPU 上花费 3.5 小时，对于处理能力较低的 GPU 则需要更多时间。

最后一步用 Cog 运行模型：

$ cog predict -i prompt="Tell me something about alpacas."
Alpacas are domesticated animals from South America. They are closely related to llamas and guanacos and have a long, dense, woolly fleece that is used to make textiles. They are herd animals and live in small groups in the Andes mountains. They have a wide variety of sounds, including whistles, snorts, and barks. They are intelligent and social animals and can be trained to perform certain tasks.

教程作者表示，在完成以上步骤之后，大家可以继续尝试各种玩法，包括但不限于：

-LoRA的衍生项目

尽管性能可以媲美 GPT 3.5，但其种子任务都是英语，收集的数据也都是英文，因此训练出来的模型对中文并不友好。为了提升对话模型在中文上的效果，我们看看都有哪些比较好的项目。

首先是来自华中师范大学等机构的三位个人开发者开源的中文语言模型骆驼 ()，该项目基于 LLaMA、、 LoRA、–LoRA 等完成，单卡就能完成训练部署。有意思的是，他们之所以将模型名字命名为骆驼，是因为 LLaMA（大羊驼）和（羊驼）都属于偶蹄目 – 骆驼科。这样看来，起这个名字也在意料之中。

这个模型是在 Meta 开源的 LLaMA 基础上，参考和 -LoRA 两个项目，对中文进行了训练。

chatgpt用多少数据进行训练训练个中文版ChatGPT没那么难：不用A100，开源Alpaca