大模型在生成过程中应该遵循人类提供的指令,这将让生成结果符合要求、实际有用。针对这一点,该研究对 2、 1.3 和 1.1 进行了实验评估,并使用经典的对弈水平评估指标 ——Elo 分数,几个模型的评估结果如下图 1 所示:
偏见评估
Bias for QA(BBQ)是用于评估模型对人群偏见的常用基准。该研究在 BBQ 基准上进行实验评估,几种模型的实验结果如下图 2 所示:
下图 3 显示了在消除歧义的语境下几种模型回答 BBQ 基准中问题的准确性。值得注意的是, 模型的准确率会比 -Only 模型低是因为模型会拒绝回答一些存在偏见的问题。
事实性评估
大模型有时会生成虚假混乱的信息,因此测试模型生成内容的事实性非常重要。 是一个用于评估语言模型在对抗性环境中输出的准确性和真实性的基准,几种模型的测试结果如下图 4 所示:
总的来说, 2 在 HHH(在有用性()、无害性()、事实性()、)评估上的总体表现如下图 6 所示:
在能力评估方面,该研究针对多语言翻译任务、上下文窗口、标准基准评估、资格水平考试几个方面对 2 展开评估实验。
多语言翻译
该研究选择涵盖 200 多种语言的翻译基准 200 来评估 2 的多语言翻译能力,其中包括低资源语言。 2、 1.3 和 1.1 的评估结果如下图 7 所示:
上下文窗口
今年早些时候,研究团队将 的上下文窗口从 9K token 扩展到了 100K token,现在 2 进一步扩展了上下文窗口, 达到 200K token,相当于约 个单词。
为了证明 2 会实际使用完整的上下文,该研究测量了每个 token 位置的损失,平均超过 1000 个长文档,如下图 8 所示:
不过,研究团队表示目前发布的版本仅支持 100K token 的上下文窗口,完整的上下文窗口将会集成到他们的产品中。
标准基准评估
该研究在几个标准基准上评估测试了 2、 1.1 和 1.3,包括用于 函数合成的 Codex 、用于解决小学数学问题的 GSM8k、用于多学科问答的 MMLU、针对长故事问答的 、用于科学问题的 ARC-、用于阅读理解的 和用于中学水平阅读理解与推理的 RACE-H,具体的评估结果如下表所示:
值得注意的是, 2 生成代码的能力有了明显的提升,在 Codex 上的得分从 56% 上升到 71.2%。
资格水平考试
该研究还用几个常见资格水平考试的题目测试了 2 的实际能力。
首先, 2 在美国律师资格考试(Bar Exam)的多项选择题测试中得分率为 76.5%,高于 1.3 的 73.0%。
其次,研究团队还用美国研究生入学考试(GRE)测试了 2 的能力水平, 2 在 GRE 阅读和写作考试中的得分高于 90%,在定量推理方面与达到了参加 GRE 考试的考生的中位数水平。
最后,该研究还在美国医师执照考试(USMLE)题目上测试了 2:
表示,人工智能写作平台 和代码导航工具 等公司已开始将 2 纳入其运营中。
官方示例及试用体验
我们先看 提供的一些官方示例。
1、编码能力:为静态地图添加交互式数据。
2、文本处理能力:总结文档、输出表格。这里 2 用上了 100K token 文本处理功能,可以在 窗口上传几百页的文档。
除了以上,机器之心也尝试了一些文本分析、数学推理和编写代码方面的示例。
试用地址:
首先让 2 以目录形式总结一下「 2 技术文档」的要点,总结得非常详细,对我们写这篇文章有帮助。
再来两道数学推理题, 2 只用一次就能搞定。
最后测一些代码题,生成、检查和补全代码都不在话下。
不过, 2 仍不具备生成图片的多模态能力。
参考链接:
– EOF –
加主页君微信,不仅数据分析和开发技能+1
主页君日常还会在个人微信分享数据分析和开发相关工具、资源和精选技术文章,不定期分享一些有意思的活动、岗位内推以及如何用技术做业余项目
加个微信,打开一扇窗