chatgpt的训练数据哪里来的 ChatGPT之训练自己的模型(附下载)

默认分类1年前 (2023)发布 admin
4,022 0
ChatGPT国内版

今天分享的是大模式系列深度研究报告:《之训练自己的模型》。(报告出品方:远大)

研究报告内容摘要如下

1.准备训练数据

我们需要将需要训练的数据准备为jsonl格式,这种格式的特点就是每一行都是json的格式 (关于什么是json,参考 这里) 如下

比如,我的训练数据为 .jsonl ,里面的问答大概有2500行,对于fine-来说,数据量不能太少,少于100条数据的话,训练出来的模型质量应该好不了

2.安装工具

chatgpt的训练数据哪里来的 ChatGPT之训练自己的模型(附下载)

我们都知道,在机器学习领域,语言是主力 (参考 这里)在也不例外,我们需要先安装语言环境,安装这一步省略不讲了。安装完毕后,需要使用自带的 pip 工具安装提供的训练工具

3.调优数据

指令会帮我们优化训练数据,该指令运行过程中会问我们几个问题,主要是给添加了固定的后缀,比如”-》”,给添加了开头的空格和结尾的换行符,

4.提交数据训练

我们准备好数据后,就要提交到的平台上进行训练了,此时需要提供数据文件.jsonl和模型,目前支持的有4个 (参考这里),是、Curie、Ada、,从左到有,价格分别是从贵到便宜,性能是从好到一般。如果想知道每个模型的效果,可以同时基于2个进行训练,最后比较效果。这次考虑到训练成本,先用Curie作为训练

chatgpt的训练数据哪里来的 ChatGPT之训练自己的模型(附下载)

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

本报告共计:7页。受篇幅限制,仅展示部分内容。

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...