chatgpt的训练数据哪里来的 ChatGPT之训练自己的模型（附下载）

默认分类2年前 (2023)发布 admin

4,037 0 0

今天分享的是大模式系列深度研究报告：《之训练自己的模型》。（报告出品方：远大）

研究报告内容摘要如下

1.准备训练数据

我们需要将需要训练的数据准备为jsonl格式，这种格式的特点就是每一行都是json的格式 (关于什么是json，参考这里) 如下

比如，我的训练数据为 .jsonl ，里面的问答大概有2500行，对于fine-来说，数据量不能太少，少于100条数据的话，训练出来的模型质量应该好不了

2.安装工具

chatgpt的训练数据哪里来的 ChatGPT之训练自己的模型（附下载）

我们都知道，在机器学习领域，语言是主力 (参考这里)在也不例外，我们需要先安装语言环境，安装这一步省略不讲了。安装完毕后，需要使用自带的 pip 工具安装提供的训练工具

3.调优数据

该指令会帮我们优化训练数据，该指令运行过程中会问我们几个问题，主要是给添加了固定的后缀，比如”-》”，给添加了开头的空格和结尾的换行符，

4.提交数据训练

我们准备好数据后，就要提交到的平台上进行训练了，此时需要提供数据文件.jsonl和模型，目前支持的有4个 (参考这里)，是、Curie、Ada、，从左到有，价格分别是从贵到便宜，性能是从好到一般。如果想知道每个模型的效果，可以同时基于2个进行训练，最后比较效果。这次考虑到训练成本，先用Curie作为训练

chatgpt的训练数据哪里来的 ChatGPT之训练自己的模型（附下载）