提示学习还有各种有趣的用法,如小样本场景下的语境学习(In- ),即在提示中加入几个完整的例子,如“美国的首都是华盛顿, 法国的首都是巴黎,英国的首都是 ____”,以及在推理任务上的思维链 (Chain-Of-,COT)(我们将在下一节中详细介绍)等等。
相较于提示学习,指令精调( )可以说是提示学 习的加强版。两种学习方法的本质目标均是希望通过编辑输入来深挖模型 自身所蕴含的潜在知识,进而更好的完成下游任务。而与提示学习不同的 是,指令学习不再满足于模仿预训练数据的分布,而是希望通过构造“指令 ()”并微调的方式,学习人类交互模式的分布,使模型更好的理 解人类意图,与人类行为对齐;在指令学习中,模型需要面对的不再是单纯 的补全任务,而是各种不同任务的“指令”,即任务要求。
模型需要根据不同 的任务要求,做出相匹配的正确回复。“指令”举例如下:
• 请将下面这句话翻译成英文“ 都用到了哪些核心技术?”
• 请帮我把下面这句话进行中文分词“我太喜欢 了!”
• 请帮我写一首描绘春天的诗词,诗词中要有鸟、花、草。
从样例中可以看出,原本自然语言处理中的经典任务,
经过任务要求的 包装后,就变成了更符合人类习惯的“指令”。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...