chatgpt运行时提示网络无法访问 【前沿译文】内幕访谈:ChatGPT研发者的心声与担忧|MIT Technology Review最新翻译

默认分类4个月前发布 admin
4,513 0
ChatGPT国内版

| 编者按 |

本期我们组织翻译了MIT 发表的最新文章,由Will 撰写的The story of how was built from the who made it一文。本文中作者采访了四位研发团队的核心成员,与他们就的核心技术、安全漏洞、应对措施与应用场景进行了深入交谈。全文3783字,预计阅读时间5分钟。

| 01 |

当在2022年11月底推出时,这家总部位于旧金山的人工智能公司对其几乎没抱有什么期待。当然,内部也没有人对其病毒式的传播做好准备。从那以后,该公司一直在努力提升,并利用自己的成功获利。

在从事政策工作的桑德尼·阿加瓦尔( )说,在公司内部,它被视为“研究预览”——这是对这项已有两年历史的技术的更精致版本的嘲弄,更重要的是,它试图通过收集公众的反馈来弥补其具有的一些缺陷。的科学家利亚姆·费德斯(Liam Fedus)参与了的研究,他说:“我们不想把它过度吹捧为一个重大的根本性进步。”

为了了解这个聊天机器人背后的内幕——它是如何制作的,在发布后是如何更新它的,以及制作者对它的成功有何感受,我采访了四位参与开发这一最受欢迎的互联网应用程序的人。除了和Fedus,我还与的联合创始人John 和 对齐()团队的领导人Jan Leike进行了交谈,他们致力于让AI做用户想要它做的事情。

我得到的感受是,仍然对其“研究预览”的成功感到困惑,但它已经抓住机会推动这项技术的发展,通过观察数百万人如何使用它,并试图解决使用过程中出现的最严重的问题。

自11月以来,已经多次更新。研究人员正在使用一种名为对抗性训练的技术来阻止在用户诱骗下做出糟糕的行为(即所谓的越狱)。这项工作让多个聊天机器人相互对抗:一个聊天机器人扮演对手,通过生成文本来攻击另一个聊天机器人,迫使它违背其通常的约束,并产生有害响应。成功的攻击将被添加到的训练数据中,以希望它学会忽略这些数据。

还与微软签署了一项数十亿美元的协议,并宣布与全球管理咨询公司贝恩(Bain)结盟。贝恩计划为包括可口可乐(Coca-Cola)在内的客户开展营销活动时使用的生成式人工智能模型。在之外,关于的热议已经引发了围绕大型语言模型的另一场淘金热,世界各地的公司和投资者都开始行动起来。

短短三个月,相关炒作就已经很多了。从何而来?采取了哪些步骤来确保其已经做好充分的发布准备?他们接下来要去哪里?

出于篇幅和清晰度的考量,以下内容已经过编辑

Jan Leike:说实话,这是压倒性的。我们很惊讶,并且一直在努力追赶。

John :在其发行后的几天里,我经常查看,在这段疯狂的时间里处处都充斥着的截图。我希望它对人们来说是直观易懂的,并且,我预想到它会获得一些追随者,但我没想到它会达到主流的受欢迎程度。

:我想,对于我们所有人来说,这么多人开始使用它绝对是一个惊喜。我们在这些模型上付出太多了,有时甚至会忘记它们会给外界带来多大的惊喜。

Liam Fedus:我们很惊讶它的反响如此之好。之前有很多关于通用聊天机器人的尝试,我知道这样的时机对我们不利。然而,内测给了我们信心,那就是我们创造出了一些人们可能会真正喜欢的东西。

chatgpt运行时提示网络无法访问 【前沿译文】内幕访谈:ChatGPT研发者的心声与担忧|MIT Technology Review最新翻译

Jan Leike:我想更好地理解是什么推动了这一切——是什么推动了病毒式传播。老实说,我们不明白。我们也不知道。

| 02 |

团队的部分困惑来自于这样一个事实:中的大部分技术都不是新技术。是GPT-3.5的微调版本,GPT-3.5是在几个月之前发布的一系列大型语言模型。GPT-3.5是2020年发布的GPT-3的更新版本。在其网站上提供应用程序编程接口(api)以接入其模型,这使得其他软件开发人员可以轻松地将模型插入自己的代码中。还在2022年1月发布了GPT-3.5微调版本,称为。但之前的这些版本都没有向公众宣传过。

Liam Fedus: 模型在与相同的语言模型基础上进行了微调,并且我们使用了类似的微调方法。我们添加了一些会话数据,并调整了训练过程。所以我们不想把它当做一个巨大的根本性进步来推销。但事实证明,会话数据对产生很大的积极影响。

John :通过标准基准来评估的原始技术能力实际上在模型之间并没有实质性的区别,但是更易于访问和使用。

Jan Leike:在某种意义上,你可以将理解为目前已有的人工智能系统的一个版本。它并不是一个比我们之前的模型更强大的模型。在出现至少一年前,已经有类似的基础模型能够通过API进行访问。从另一个意义上说,我们让它更符合人类的意愿。它通过对话与你交谈,在聊天界面中很容易访问,并试图提供帮助。这是惊人的进步,我认为这是人们意识到的。

John :它更能够推断出人们的意图。用户可以通过来多轮对话来获得他们想要的东西。

| 03 |

的训练方式与非常相似,它使用了一种名为从人类反馈中强化学习(RLHF)的技术。这就是的秘密武器。其基本思想是采用一个能够依照其原本倾向输出内容的大型语言模型(在本例中是GPT3.5),再通过告诉它人类用户实际上更喜欢哪种类型的输出来对它进行微调。

Jan Leike:我们有一大群人阅读的提示和回答,并判断一种回答是否比另一种更可取。然后,所有这些数据被合并到一次训练运行中。它的大部分内容与我们对所做的调整相同。你希望它有用,希望它真实,希望它无害。还有一些生成对话和成为助手的所能完成的特殊任务:例如,如果用户的问题不清楚,它应该询问后续问题。它还应该澄清自己是一个AI系统。它不应该假设出一个自己没有的身份,它不应该声称拥有自己不具备的能力,当用户要求它做不应该做的任务时,它必须做出拒绝。在训练中出现过一句话是“作为训练的语言模型……”它并没有明确地放在那里,但它是被人类评分者打分很高的回答之一。

:是的,我想就是这样。人类评价者必须根据各种标准对模型进行排名,比如真实性。但他们也开始喜欢上他们认为好的做法,比如不假装成为自己不是的东西。

| 04 |

因为在构建时使用的技术均为在之前已经使用过的,因此在向公众发布这一模型时该团队并未采取任何特殊措施。他们认为他们为先前的模型所设置的防护措施已经足够了。

:当我们准备发布时,我们不认为这个模型会带来全新的风险。GPT-3.5已经出现在世界上,我们知道它已经足够安全了。通过对人类偏好的训练,模型自动学习了拒绝行为,它会拒绝很多请求。

Jan Leike:我们确实为做了一些额外的“红蓝对抗(red )”,的每个人都参与其中试图打破这个模型。我们也有外部团体做同样的事情。我们还有一个早期访问项目,由值得信任的用户提供反馈。

chatgpt运行时提示网络无法访问 【前沿译文】内幕访谈:ChatGPT研发者的心声与担忧|MIT Technology Review最新翻译

:我们确实发现它产生了一些不需要的输出,但它们都是GPT-3.5也会产生的。就风险而言,作为一个研究预览——因为这是它最初的意图——这可以被接受。

John :你不能等到你的系统完美的时候再发布它。我们对早期版本进行了几个月的beta测试,测试者对产品的印象很好。我们最关心的是事实性,因为模型喜欢编造东西。但是和其他大型语言模型已经存在,所以我们认为只要在事实性和其他安全问题方面比它们更好,它就应该是好的。在发布之前,我们确认,根据我们有限的评估,这些模型确实看起来比其他模型更真实、更安全,所以我们决定继续发布。

| 05 |

自发布以来,一直在观察人们如何使用它,他们第一次看到一个大型语言模型被交到数千万用户手中,这些用户可能希望测试它的极限并找到它的缺陷。该团队试图抓住所能产生的最大问题的例子——从关于上帝对强奸犯牧师的爱的歌曲到窃取信用卡号码的恶意代码——并利用它们来控制模型的未来版本。

:我们还有很多后续工作要做。我确信的病毒式传播让许多我们知道已经存在的问题变得更为重要,我们想要尽快解决它们。比如,我们知道这个模型仍然存在很大的偏差。是的,非常擅长拒绝不好的请求,但它也很容易通过编写不同的提示使其无法拒绝我们希望它拒绝的内容。

Liam Fedus:看到用户带来的多样化和创造性的应用是令人兴奋的,但我们始终专注于需要改进的领域。我们认为,通过部署、获得反馈和改进的迭代过程,我们可以生产出最一致和能力最强的技术。随着技术的发展,新的问题不可避免地出现。

:在发布后的几周里,我们研究了一些人们发现的最糟糕的例子,人们在野生环境中看到的最糟糕的东西。我们对这些问题都进行了评估,并讨论了我们应该如何解决这些问题。

Jan Leike:有时是在推特上疯传的东西,但我们有一些人实际上在悄无声息地伸出援手。

:我们发现的很多东西都是有关越狱的,这绝对是我们需要解决的问题。但是因为用户必须尝试各种复杂的方法才能让模型生成一些不良内容,所以这并不是被我们彻底遗漏的问题,对我们来说也不是非常惊讶的结果。不过,这是我们目前正在积极研究的部分。当我们发现越狱情况时,我们会将其添加到训练和测试数据中。我们看到的所有数据都将输入到未来的模型中。

Jan Leike:每次我们有一个更好的模型时,我们都想把它拿出来测试。我们非常乐观地认为,一些有针对性的对抗性训练可以大大改善用户越狱的情况。目前还不清楚这些问题是否会完全消失,但我们认为我们可以让越狱变得更加困难。再次强调,这并不是说在发布之前我们并不知道越狱是可能的。我认为一旦系统被部署,就很难真正预测到它们会有什么现实安全问题。所以我们非常重视监控人们使用这个系统的目的,看看会发生什么,然后做出反应。这并不是说我们不应该在预料到安全问题时主动纾解它们。但是,当一个系统冲击现实世界时,很难对实际会发生的一切做出预测。

今年1月,微软发布了搜索聊天机器人Bing Chat,许多人认为它是官方未宣布的GPT-4的一个版本。(表示:“必应由我们的下一代模型之一提供支持,这是微软专门为搜索定制的。它融合了和GPT-3.5的优势。”)拥有数十亿美元声誉的科技巨头对聊天机器人的使用,给那些负责构建底层模型的人带来了新的挑战。

【译者】张嫚卿,网络法理论与实务前沿算法治理组编辑

【校对】宋佳钰,网络法理论与实务前沿执行主编

【编辑】施晓宇,网络法理论与实务前沿公众号编辑

【指导教师】张欣,对外经济贸易大学数字经济与法律创新研究中心执行主任

往期系列推送

323AI导航网发布

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...