3.0跃升至95,以传达他们(现在是标志性的)重新设计。 Excel从5到7,以便与MS 的其余部分同步,MacOS和都跳过了版本9以吸引X世代。 React从0.14跃升至v15,而和Go则展示了系统开发人员对破坏任何东西/计数到2的承诺/无法。
那么我们应该如何对基础模型进行版本控制呢?对于研究人员来说,这是一个有点陌生的概念,他们会随便训练400个无名的LLM来证明一个观点,但随着人工智能工程师在其上构建产品和业务,这一点变得越来越重要。
在迄今为止生成式AI的简史中,我们已经有一些值得注意的案例研究。虽然 GPT1→2→3 的进展每次都是向前迈出的明显一步,而 4→5 预示着巴黎世家教皇,但 1→2 等其他发展更具争议性。次要版本升级应该是没有争议的 – 它可能意味着从相同的检查点开始并添加更多培训 – 如SD v1.3→1.4→1.5…
…这给我们带来了今天的主题 半点 GPT 版本作为成帧设备
您可能还记得,GPT3.5 是与 一起宣布的,追溯包括在其text–003并职权范围内。这完成了两件事:code–002
提高人们对 GPT3.5 型号明显优于 GPT3(2020 年份)型号的认识,因为 1) 添加代码,2) 指令调整,3) RLHF/PPO表明新的聊天范式是通用AI的前进方向
我对代码解释器模型的评论的中心框架主题将围绕:
提高对 GPT4 此更新重要性的认识暗示这种新范式是通用人工智能的前进方向
这两种品质使我得出结论,代码解释器应该被视为事实上的GPT 4.5,如果有一天有一个API,我愿意打赌它也将被追溯到法律上的名称。
但我们超越了自己。
是时候回顾一下了,就像我们为,GPT4和Auto-GPT所做的那样!
代码解释器执行摘要
代码解释器是“:
“,可以将 写入 并在沙箱中执行它沙箱,该
与其他用户和互联网隔绝支持高达 100MB 的上传/下载(包括.csv、.xls、.png、.jpeg、.mov、.mp3、、个文件。.epub.pdf、.zip整个 Git 存储库的
)预装了(和),(),(),(330多个库,如(数据分析),,,图表and地图枕头图像处理(),-Learn和和)
.由于 (2),您还可以上传额外的依赖项,例如GGML。.
它于 23 月 2 日作为宣布,其中包括月获得了访问权限推出的著名演示安德鲁·梅恩和格雷格·布罗克曼。Alpha 测试人员在 、 月和 月。最后,它作为选择加入测试版功能向所有~m
Plus 用户6 月 8 日至 日的
由于这些功能可以在代码中灵活且无限地组合,因此很难枚举所有功能,但通过示例(例如p5.js学习游戏创建 上的,绘制模因,创建交互式仪表板,数据预处理,包括季节性,编写复杂的AST操作代码,大规模人脸检测是有用的,请参阅#code解释器输出通道)并浏览库列表
样本由 Ethan 制作的,他不了解 ,但对从代码解释器中获取内容了解很多。Ethan 还将他的经验提炼为一个很长的系统提示符,以获得良好的代码解释器默认值。看到其他人和其他人。
需要注意的是,代码解释器实际上引入了两个新东西,而不是一个 –沙盒和模型:
模型的自主性必须被看到才能被相信。这是零人工输入的编码和调试:
模型的进步是为什么开源尝试在三月份的演示之后克隆代码解释器的原因,就像这样,这大多失败了。就像之前的 一样,代码解释器感觉像是一种进步,因为它将模型与模态捆绑在一起。
限制– 超出硬件系统规格
但总的来说,印象非常强烈:
“Code Beta非常强大。它是您的个人数据分析师:可以读取上传的文件,执行代码,生成图表,统计分析等等。我预计社区需要一些时间来充分挖掘其潜力。
“如果这不是一个改变世界、GDP变化的产品,我不确定究竟会是什么。每个有剧本的人每月 20 美元“——roon
“我开始搞砸代码解释器,它在接下来的两年里完成了我路线图上的所有事情” –Simon ,在今天的播客中
推理:下一个大前沿
之后,随之而来的顶级辩论之一是在我们的 Hotz谈话关于如果GPT-4真的“只是8 x 220B专家”,是否“没有想法”。just 8 x 220B 撇开路由语言模型和开关转换器的工作是像这样的万亿参数类模型的真正PanGu进步,Code 表明,只要你不将你的进步定义限制在纯粹的LLM推理上,并且已经处于领先地位,那么仍然有进步的空间。
2017年,诺姆·布朗(Noam Brown)建立了,这是一款人工智能,在120万手无限制德州扑克中击败了四名顶级专业人士。主要见解之一?
“神经网络通常会在大约 100 毫秒左右给你一个响应……我们发现,如果你做一点搜索,这,只需一点点相当于让你预先计算的策略大1000倍搜索。它只是吹走了我们一直在进行的所有研究。(摘自带时间戳的视频)
结果是追溯显而易见的(最好的一种显而易见!
诺姆后来在 2019 年利用这一见解与解决了 6 方扑克,然后在 2022 年再次与西塞罗合作解决外交问题(感谢来自的搜索算法和)。上个月他还在想:
2周后,他加入了。
、 & the Agent Cloud
一段时间以来,我一直在喋喋不休地谈论LLM编码能力的特殊地位a while。这是人工智能工程师崛起的重要推动力。这不是一个“哦,可爱,这是,这对开发人员有好处,但别无他法”的故事 – LLMs-that-code通常即使对于不编码的人也很有用,因为LLM是代码之上的完美抽象。
我所知道的最早的“Code Core”实验来自Riley ,他去年的“你是GPT-3,你不能做数学”。
这启发了的Amjad Masad和(! 的。
这是修补LLM缺陷(做数学,与外部环境交互,可解释性,速度/成本)的最佳方法是利用其编写代码的能力来做LLM之外的事情的第一个迹象。
英伟达的创建了路线图,以得出合乎逻辑的结论“:
可能是 2023 年 AI 代理中最重要的图表。源
不过,从进行概括有一个明显的问题:现实世界比更加随机,记录更少,反馈循环更长。从 AI和的当前代理实现到也都在您的实时浏览器/桌面上运行,使潜在的幻觉和错误成为灾难性的,并创造出相当于始终必须将手放在方向盘上的自动驾驶汽车。
如果你是“代码核心”,你知道这是怎么回事。自从Ada 开始为 编写代码以来,开发人员一直在现实的分支上进行测试运行。 it 为它
.您可以使用语义层改进代码生成,如(Seek AI 的 Sarah Nagy 已经做到了,但最终知道代码是否会运行并做你期望的事情的唯一方法是创建一个沙箱,比如() 的 ,并生成测试,比如(节目的朋友! AI的 已经做到了。
大多数代码生成/沙盒可以而且应该在本地完成,但随着 的终结越来越近,越来越多的代理构建者和用户意识到需要云基础设施来构建和运行 LLM 推理过程的这些代码段,人们可以非常合乎逻辑地预测代理云的兴起Agent 以满足这一需求。这实际上是一种新型的无服务器基础设施需求 – 它不仅是短暂的和以编程方式提供的,而且将具有向非人类操作员提供必要的反馈的特殊功能。不出所料,新生的代理云子行业有大量候选人:
你会注意到,他们都使用,这是2018年开源的QEMU替代技术亚马逊在(对于一家通常不以OSS领导而闻名的公司来说,这是一个不错的胜利)。然而,一个对比的方法可能来自Deno(在in -land中)和Modal(在-land中),它们的自我配置运行时在代理开发人员和基础设施提供商之间提供了一个更轻量级的合同,但代价是熟悉度要低得多。
当然,必须构建自己的代理云,以便在一个周末为2万客户提供托管和扩展代码解释器。他们多年来一直在工作中使用它,而我们其他人刚刚意识到它的重要性。
通往 GPT-5 之路:代码增强推理
综上所述,我们可以将代码解释器与先前的方法进行对比:
您可以考虑保证主要版本和次要版本碰撞的进步,考虑代码解释器“继续存在”的可能性,因为它解锁了功能,并查看我对代码解释器“GPT 4.5”的看法。
在我们的播客对话中(我最终会插入,但稍后会做显示笔记),我们还将注意到 GPT4 顽固分子的轶事经验,他们坚持认为基线 GPT4 质量已经恶化(Logan 断言服务模型没有变化)也是那些报告代码解释器的输出的人,而不是编写代码。,与原始 GPT4 在被“神经化”之前一样好。假设这是真的(如果没有明确的代码解释器 API 来通过lm-eval-运行,很难伪造),很可能为代码解释器编写代码所做的额外微调也提高了整体输出质量(我们从研究和以及GPT3.5 自己的代码达芬奇-002 中起源的结果)……使代码解释器的基本模型,没有沙盒,仅在模型质量上就有效地“GPT 4.5”。
杂项笔记不适合任何地方