ai模拟软件 清华智能体宇宙火了,AI模拟“囚徒困境”等实验只需几行简单配置

默认分类1年前 (2023)发布 admin
3,531 0
ChatGPT国内版

丰色 发自 凹非寺

量子位 | 公众号

可以轻松模拟社会实验的多智能体宇宙来了——

它由清华大学联合北邮、微信团队推出,目前已在揽获1.1k标星。

名字简单粗暴,就叫“”。

划重点:这个环境专门针对大语言模型开发,也就是智能体们可以运用LLM的能力完成任务。

而只需几行简单配置,你想让智能体们在什么环境出生,就能在什么环境成长。

比如“囚徒困境”:

狱警向两个嫌疑人agent提出一个两难挑战,让他们自己决定是合作互惠还是背叛。

比如“NLP课堂”:

教授通过文字形式授课,学生agent通过有问题时举手、被点名之后方可发言提问的方式,一步步学会知识。

甚至,还能模拟简单的宝可梦游戏…而且还是用户可以直接参与进去的那种:

(通过输入文本进行对话)

要啥有啥,全凭你自己发挥。

作者也表示,这个项目的初衷就是简化大伙儿用LLM构建自定义多智能体环境的过程,让大家能够专注于研究本身。

目前,的论文已经发布,源码也在路上了。

ai模拟软件 清华智能体宇宙火了,AI模拟“囚徒困境”等实验只需几行简单配置

赶紧来瞧瞧。

4个阶段、5大基础组件

正如专为大模型开发,如今人类训练智能体的效果正是在各种LLM的加持下,跟着进步了很多,比如更强的泛化能力。

不过,就和现实世界一样,即使有LLM助力,学会合作也是这些智能体们必须要经历的一件事。

在此,作者提出了多智能体环境构建框架。

它的工作流程模拟了人类合作解决问题的过程,一共分为4个阶段:

1、专家招募( )。

根据当前问题解决进度调整由那些agent来处理任务。

2、讨论合作策略( )。

由上一阶段招募的agent讨论解决问题所需的分工,需要达成共识。

3、执行( )

agent们与环境进行交互,完成任务。

4、评估()

任务完成后,此模块将当前状态与期望目标进行比对,如果没有达到预期就发送反馈奖励重新回到第一步骤。

如开头提到,框架的亮点之一就是可以实现自定义环境配置。

那么如何自定义?

方法是通过5个基础组件。

每一个组件代表的其实是一个规则,组合不同的规则就可以搭建出不同的环境,从而方便研究人员研究不同条件下智能体的行为。

具体来看,这5个组件分别是:

ai模拟软件 清华智能体宇宙火了,AI模拟“囚徒困境”等实验只需几行简单配置

除了这5个基础组件,还有一个非常基础的元素:agent。

目前,系统提供两种类型:一个是,一个是,含义如其名。

当然,通过继承类我们还能定制第三种,以及更多类型代理。

如何配置?

手动clone或者pip命令即可安装。

需要注意的是,得准备一个 API密钥,以及安装(可选,如果你需要它提供的各种扩展工具)。

如上准备就绪后:

1、我们可以直接运行他们搭好的例子。

除了开头展示的“囚徒困境”、NLP课堂、宝可梦游戏,还有软件设计场景(1个写代码的agent、1个测试agent、1个审查agent)、数据库管理场景和文本评估场景。

值得注意的是,在NLP课堂这个主题上,作者提供了非常多的环境可选:

除了开头展示的那个可进行提问操作的case,还有可以发起小组讨论、学生在听课时使用必应进行搜索、用 API玩算术游戏等等。

2、自己动手搭一个。

自己动手可以先来一个简单的,比如构建一个只有1名教授、1名学生和1个助教的课堂环境。

首先创建任务目录并配置环境,也就是上面介绍的5个基础组件配置:

然后是配置agent,下面是教授的示例:

可以看到agent类型、名字、所用LLM类型等信息。

最后编写输出解析器,服务gent的响应,比如可以让模型在提示模版中以下格式输出:

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...