ai对齐工具无法对齐 OpenAI 创始人交流纪要

默认分类1年前 (2023)发布 admin

1,547 0 0

一、Sam ——规范

目前，世界各地的人已经开始尝试用AI改变生活。我们也和外国领导人就监管进行了谈话。监管是确保未来安全可靠地部署人工智能系统的前提。今天我来讨论一下目前AI技术的发展速度，以及现在需要做什么来为引入人工智能做准备。

历史证明科学技术遵循指数增长，但目前AI的增长不止在其规模，还在其发展的速度。AI能快速发挥人们的想象力。可能未来十年后，AGI在每个领域都能超越人类的专业知识，它的生产力能够超越最大的公司。所以人工智能革命的潜力是巨大的，但前提是要有足够的风险管理，而大国合作是其中的关键。

随着日益强大的人工智能系统的出现，全球合作的赌注从未如此之高：一个旨在改善公共卫生结果的人工智能系统，可能会提供没有根据的建议，从而扰乱整个医疗保健系统。同样，为优化农业生产而设计的人工智能系统可能会无意中耗尽自然资源或破坏生态系统，因为缺乏对粮食生产可持续性的考虑（对环境平衡的考虑）。因此，推进AGI安全是我们需要共同努力的最重要领域。

我们要从以下几点入手：

1、AGI治理。AGI是一项具有全球影响力的技术。它能从根本上成改变我们的文明，这也是国际合作和协调的意义和必要性。每个人都会从合作治理中受益。而不计后果的开发和部署所造成的事故成本也将影响到所有人。如果我们安全、负责地驾驭这条道路，AGI系统可以为全球创造经济繁荣，解决气候变化和健康安全等共同挑战，并提高社会福祉。未来我们也需要在AGI安全方面进行投资。

（更多投研内容可关注公众号《投研锋向》加入 ! | ，体验更多0预期差纪要信息）

国际合作有两个最重要的方面：

（1）我们需要建立国际规范和标准，并要注重包容性。在任何国家使用AGI系统，都应平等一致地遵循国际标准和规范。

（2）我们需要国际合作，在安全开发AI系统方面，以可核查的方式建立国际间信任。这不是一件容易的事，需要投入大量和持续的关注。国际合作的第一步是国际科学和技术界之间的合作。

而且，我们应该（在推动技术进步方面）增加透明度和知识共享的机制。在AGI安全方面，发现新安全问题的研究员应该分享他们的见解。在考虑如何制定这种鼓励机制的同时，也要尊重和保护知识产权，这样才能实现深化合作。更广泛地来讲，我们应该投资于对AI对齐和安全的研究。

目前，的研究主要集中在技术问题，让AI充当一个更有用且安全的角色。通过训练使其不产生暴力威胁或协助用户进行有害活动。但随着我们日益接近AGI的时代，缺少对齐的AI系统的潜在影响力和影响规模将成倍增长。现在积极主动地解决这些挑战，能把未来的风险降到最低。

目前我们主要利用人类反馈来进行强化学习训练模型，使其成为安全的工作助手。这是调整模型的一种方法。我们也在努力研究新技术。

从GPT4完成预训练到部署，我们专门花了8个月的时间来进行对齐方面的工作。总的来说，我们认为GPT4在这方面做得很好。它比我们以前的任何模型都更加与人类对齐。

然而，对于更先进的系统，对齐仍然是一个未解决的问题。我们认为这需要新的技术方法，同时增强治理和监督。未来的AGI系统，它可能需要10万行二进制代码。人类监督者不太可能发现这样的模型是否在做一些邪恶的事情。所以我们正在投资一些新的、互补的研究方向，希望能够实现突破。

2、训练AI系统来帮助进行对齐研究。这种方法的好处在于，它可以随着AI的发展而扩展。我们可以尝试使用人工智能系统来协助人类监督其他人工智能系统。

1）我们可以训练一个模型来帮助人类监督发现其他模型的输出中的缺陷。

2）也可以用模型来增强其他模型的解释力，更好地了解这些模型内部发生了什么。我们最近发表了一篇论文，使用GPT-4来解释GPT-2中的神经元。在另一篇论文中，我们使用来检测一个模型何时在说谎。我们相信，先进的机器学习技术可以进一步提高解释能力。

ai对齐工具无法对齐 OpenAI 创始人交流纪要

获得AGI带来的好处，同时降低风险，是我们这个时代的开创性挑战之一。我们看到中国、美国以及世界各地的研究人员有很大的潜力来共同解决对齐的技术挑战。如果这样做，相信我们将能够利用AGI来解决世界上最重要的问题，并极大地改善人类的生活质量。

二、Q&A环节

Q: 我们距离通用人工智能（AGI）还有多远？风险是不是很紧迫，还是我们离它也很遥远？

A：这很难评估具体时间。很可能未来十年我们会有非常强大的AI系统。新技术从根本上改变世界的速度可能比我们想象的快。因此我认为把这件事（AI安全规则）做好是重要且紧迫的，这就是为什么我呼吁国际社会共同努力的原因。

不止是AGI，我们现在看到的新技术的加速和对系统的影响是前所未有的。所以我认为要为即将发生的事情做好准备，并了解有关安全的问题。

Q:您刚才在前期的介绍中也提到了几次，需要进行全球合作，目前进展如何？

A：是的，我对到目前为止大家的反应和回答都非常满意。我认为人们非常认真地对待AGI的风险和机遇。我认为在过去的6个月里，对于安全的讨论已经取得了相当大的进展。人们似乎真的致力于找出一种结构，让我们能够享受这些好处，同时在全球范围内共同努力降低风险。我认为我们非常适合做这件事。全球合作总是困难的，但我认为这是一种将世界团结在一起的机会和威胁。我们可以为这些系统提出一个框架和安全标准，这将非常有帮助。

Q:我们可以仅通过对齐来解决AGI的安全问题吗？

A：我认为对齐这个词有不同的理解方式，而我们需要解决的是整个人工智能系统中的所有挑战。传统意义上的对齐是让模型的行为符合用户的意图，这是挑战的一部分。但还会有其他问题，比如我们如何验证系统正在做什么，我们希望它们做什么，以及我们如何调整系统的价值。最重要的是要全面了解如何实现安全的AGI。

Q:除了技术方面，还有哪些因素和问题对人工智能安全至关重要？我们应该如何应对这些挑战？

A：这无疑是一个非常复杂的问题。虽然弄清楚价值观不是技术问题，但如果没有技术解决方案，一切都很难解决。这同时也是一个值得全社会深入讨论的问题。我们必须设计公平、具有代表性和包容性的系统。而且我们需要考虑的不仅仅是人工智能模型本身的安全性，而是整个系统的安全性。

因此，可以构建在系统上运行的安全分类器和检测器很重要，它们可以监控对AI的使用是否符合规范。我认为很难提前预测未来会出现的所有问题。因此，从现实世界的使用中学习并迭代部署也非常重要。

Q: 在AGI中，不同国家分别有哪些优势来解决AGI问题，如何将这些优势结合到一起？

A：我认为人工智能安全需要很多不同的视角。我们还没有得到所有的答案，这是一个相当困难和重要的问题。使人工智能安全和有益也不是一个纯粹技术问题，这涉及不同背景不同国家的用户偏好。我们需要各个方面的投入才能实现这一目标。中国拥有一些世界上最优秀的人工智能人才，希望他们能做出贡献。

Q：目前国际合作的进展和下一步目标？

A：制定安全开发高级人工智能系统的国际标准是非常重要的。我们也在考虑如何在训练后测试，如何构建反映全球价值观和偏好的数据库，以及如何用开发论坛分享AI安全研究，这是三件最具体的事情。

Q: 有没有计划重新开源它的模型，就像在3.0版本之前那样？

A：我们有些模型是开源的，有些不是，但随着时间的推移。我们将来也会继续开源更多的模型。我没有一个具体的模型或时间表，但这是我们目前正在讨论的事情。

ai对齐工具无法对齐 OpenAI 创始人交流纪要

Q: 模型开源相关的讨论？

A：开源确实有重要作用，同时API模型也有一个重要的作用：它为我们提供了额外的安全控制。它阻止某些用途、阻止某些类型的微调。如果阻止不起作用也收回模型。在当前模型的规模下，我不太担心这个问题。但是随着模型变得像我们期望的那样强大，我认为开源一切可能不是最佳路径，尽管有时候它是有好处的。我需要仔细平衡。

Q：我们是否有可能需要更改AGI模型的整个基础架构或整个体系结构，使它更安全，更容易被检查？

A：无论是从功能角度还是从安全角度来看，我们确实需要一些非常不同的架构，这是完全可能的。我认为我们将在解释目前各种模型的能力方面取得良好进展，了解他们在做什么以及为什么。如果在之后有另一个巨大的飞跃，我也不会感到惊讶。自从最初的以来，我们已经改变了很多架构。

Q: 作为一个研究人员，我也很好奇，下一步的研究方向是什么？

A：我也很好奇下一步会发生什么。我们也在探索很多可能的新范式。当然，我们可能会尝试做一个GPT-5模型，但不会很快。我们在刚开始的时候就做过机器人方面的工作。我们对此非常感兴趣，但也遇到了一些困难。希望有一天我们能够回到这个领域。

Q：用GPT-4来解释GPT-2，从而使模型更安全，这种方法是可扩展的吗？未来会继续推进的？

A：是的。我们会继续推进这个方向。

Q: 有一些生物学家和神经科学家想借鉴这个方法探索人类神经元是如何工作的。你认为这种方法可以应用到生物神经元上吗？

A：在人工神经元上观察发生了什么比在生物神经元上容易得多。所以我认为这种方法对于人工神经网络是有效的，但不太确定是否能应用到人类大脑上。

Q: 如果这个世界上只有三个模型会不会更安全？就像核控制一样控制模型的数量（类似控制国家的数量）？

A：我认为对于世界上有少数模型还是多数模型更安全，有不同的观点。我认为更重要的是，是否有一个系统，能够让任何一个强大的模型都经过充分的安全测试；以及是否有一个框架，能够让任何一个创造出强大模型的人，负责确保他们创造出的东西是安全和对齐的。

Q: 能否通过类似于控制药物开发的方式，模型必须经过测试才能投入使用？

A：肯定可以。我们可以从不同行业发展出来的许可和测试框架中借鉴很多东西。但我认为从根本上说，我们已经有了一些可以奏效的方法。