如何训练chatgpt写提示词 ChatGPT提示学习与指令精调

默认分类2年前 (2023)发布 admin

3,533 0 0

提示学习还有各种有趣的用法，如小样本场景下的语境学习（In- ），即在提示中加入几个完整的例子，如“美国的首都是华盛顿，法国的首都是巴黎，英国的首都是 ____”，以及在推理任务上的思维链（Chain-Of-，COT）（我们将在下一节中详细介绍）等等。

相较于提示学习，指令精调（）可以说是提示学习的加强版。两种学习方法的本质目标均是希望通过编辑输入来深挖模型自身所蕴含的潜在知识，进而更好的完成下游任务。而与提示学习不同的是，指令学习不再满足于模仿预训练数据的分布，而是希望通过构造“指令（）”并微调的方式，学习人类交互模式的分布，使模型更好的理解人类意图，与人类行为对齐；在指令学习中，模型需要面对的不再是单纯的补全任务，而是各种不同任务的“指令”，即任务要求。

模型需要根据不同的任务要求，做出相匹配的正确回复。“指令”举例如下：

如何训练chatgpt写提示词 ChatGPT提示学习与指令精调