标签:InstructGPT 模型

chatgpt 的底层逻辑 ChatGPT背后的模型

ChatGPT背后的模型,文章目录1.RLHF方法2.ChatGPT中的RLHF方法2.1微调模型GPT-32.2训练奖励模型2.3利用强化学习进一步微调语言模型3.效果4