从AI Agent的起源到其在不同阶段的技术突破,再到对未来发展方向的预测,文章详细阐述了AI Agent如何逐步演变为今天的形态,并探讨了其在解决复杂任务中的潜力和挑战。对于希望了解AI Agent及其在现代科技中角色的读者来说,这是一篇不可错过的文章。
本篇文章是使用5W1H分析框架拆解AI Agent的中篇,在进入正文之前,先总体回顾这一系列文章的脉络。
上篇:介绍What + Why,主要解答以下问题。
What:AI Agent是什么?AI Agent有哪些组成部分?AI Agent的原理是什么?AI Agent是怎么分类的?
Why:为什么会产生AI Agent?AI Agent的优势和劣势是什么?为什么企业和个人都要关注AI Agent?
中篇:介绍When + Where + Who,主要解答以下问题。
When:AI Agent的发展历程是怎样的?AI Agent未来的发展趋势是怎样的?
Where:AI Agent有哪些应用场景?
Who:AI Agent领域的玩家有哪些?AI Agent领域的行业价值链是怎样的?
下篇:介绍 How,主要解答以下问题。
How:如何实现AI Agent?AI Agent包括哪些系统模块?如何开始学习AI Agent?
想了解全部内容的同学,可以关注WXGZH“风叔云”,回复关键词“拆解AI Agent”,获得《5W1H分析框架拆解AI Agent》的完整PPT文件。
在《大佬们都在关注的AI Agent,到底是什么?用5W1H分析框架拆解AI Agent(上篇)》中,围绕What和Why,风叔详细阐述了AI Agent的概念、构成、分类、产生原因、优势劣势、以及对企业和个人的影响。
在这篇文章中,风叔将围绕When、Who和Where,详细介绍AI Agent的发展历程、行业玩家和具体应用场景。
一、5W1H分析框架之When1. AI Agent的发展历程
对于一直关注AI大模型的读者来说,下图应该不陌生。下面我们就沿着这个脉络,回顾一下AI Agent的发展历程。
阶段一,LLM大模型时代之前的Agent
Agent这一概念其实要早于LLM大模型,最早可以起源于马文明斯基在80年代出版的《智能社会》这本书,Agent理论在LLM大模型出来之前,也已经被学术界研究了很多年。
在《大佬们都在关注的AI Agent,到底是什么?用5W1H分析框架拆解AI Agent(上篇)》中,风叔有介绍AI Agent的核心三大组成部分,、Brain和,其中最关键的部分就是具备记忆、规划和推理能力的Brain。在大模型出现之前,Agent的技术始终面临天花板,无法取得实质性的进步,其核心就是缺乏具备规划和推理能力的Brain,且这种Brain还需要具有良好的通用性和泛化性。
在LLM大模型出现之前,比较知名的垂直领域 Agent 的例子比如 ,它有感知环境、思考决策、采取行动的闭环逻辑。还有的,使用强化学习方式让Agent学习打游戏,以及玩“躲猫猫”的多智能体。
在这一阶段,常规的Agent更多采用结构化固定模式,通过实现固定算法流程来完成一些自动化任务。而大模型为Agent带来了灵活性,使其可以应对人类在脑力劳动中面临的各种复杂的长尾任务,进一步实现体力和脑力任务的全面自动化。
LLM大模型是第一个可以自主学习并拥有广泛知识的AI模型,以LLM大模型作为Brain武装起来的AI Agent,开始迅速发展。
阶段二,工程
在LLM大模型刚问世的时候,大家都喜欢工程。用户通过描述角色技能、任务关键词、任务目标及任务背景等信息,告诉大模型需要输出的格式,然后大模型进行输出。
用户们也充分发挥自己的聪明才智,发展了各种各样的工程的玩法,如角色扮演、零样本提示和少样本提示。比如在少样本提示下,用户只需要给出少量示例,大模型就能学习到示例背后的逻辑,从而给出正确的答复。
当任务过于复杂时,超出了单一 的能力时,可以通过分解任务,构建多 来协同解决。最常见的 协同形式就是提示链 Chain, Chain 将原有需求进行分解,通过用多个小的 来串联或并联,共同解决一项复杂任务,如下图所示。
阶段三,大模型插件
虽然工程很强大,但是仅凭工程根本无法满足人们日益增长的复杂需求。由于大模型本身的诸多缺陷,如不能及时更新知识,上下文长度有限等等,工程师们开始给大模型加入插件。
比如引入向量数据库,对某些特定的专属数据进行切片、分块和向量化,然后把数据索引进向量数据库。当用户进行输入时,先通过数据召回找到最匹配的数据分块,再提交给大模型做工程,这样就可以使用到最新的和最准确的知识。这就是检索增强生成RAG,- 。
同时,为了让大模型更好地和物理世界交互,工程师们尝试让 GPT 调用函数和使用工具。一系列关于工具使用的实践开始出现,比如和API Bank,也推出了自己的插件体系。
阶段四,任务分解与反思
大模型在一些简单的任务上取得了还不错的结果,人们开始往更深处探索大模型的智能,尤其是处理复杂问题上的能力,这就涉及到了对复杂任务的分解,以及在行动过程中的反思。
(1) 思维链COT
当我们对LLM这样要求「think step by step」,会发现LLM会把问题分解成多个步骤,一步一步思考和解决,能使得输出的结果更加准确
(2) COT-SC
一个CoT有时可能出现错误,我们可以让Agent进行发散,尝试通过多种思路来解决问题,然后投票选择出最佳答案,这就是CoT-SC。
(3) 思维树TOT
思维树TOT是对思维链CoT的进一步扩展,在思维链的每一步,推理出多个分支,拓扑展开成一棵思维树。使用启发式方法评估每个推理分支对问题解决的贡献。选择搜索算法,使用广度优先搜索(BFS)或深度优先搜索(DFS)等算法来探索思维树,并进行前瞻和回溯。
(4)思维图GOT
思维树ToT 的方式也存在一些缺陷,对于需要分解后再整合的问题,比如排序问题,排序我们可能需要分解和排序,然后再merge。这种情况下TOT就不行了,可以引入思维图GOT来解决。
当人们发现大模型的推理能力还是不足时,开始试图让模型自身清楚地描述问题,把问题转化为 PDDL ( )格式的描述语言,通过调用通用规划器来解决规划问题,再把解决方案转化为可执行的动作,以更好地逻辑推理和规划等任务。这就是LLM+P
上面几种思路都是在解决任务分解问题,工程师们也想到了很多解决大模型反思和完善自身行动的思路。
首先是ReACT,全称是-,这种模式是让大模型先进行思考,思考完再进行行动,然后根据行动的结果再进行观察,再进行思考,这样一步一步循环下去。这种行为模式基本上就是人类这样的智能体主要模式。
然而,工程师觉得这样仍然不够,他们希望大模型在完成每一个任务后,能够积累经验和教训、因此产生了借鉴强化学习思路的”反射”机制,反射机制能够让机器记住每一次任务的完成情况,无论效果好坏,以供未来参考,提升模型的性能。这就是。
阶段五,Agent问世
随着各项基础设施的逐步完善,更大的变革轰然袭来,这就是Agent。2023年4月横空出世正式宣告了LLM Agent的来临,短短数周就获得了9万星,赚足了眼球。
下图是 的架构图,旨在实现对任务的有效管理。生成的任务将会被加入优先级队列中,随后系统会不断从优先队列中选择优先级最高的任务进行执行,整个过程中,任何反馈都会通过记忆进行迭代优化代码
随后,更多的LLM Agent如雨后春笋般爆发出来,比如微软的 、专门用于写小说的、清华联合面壁推出的双循环机制、虚拟世界中的智能体等等。
然后,工程师们就想到了Multi-Agent,既然 Agent已经具备了独立决策和行动能力,如果将多个Agent放到一个环境中,他们之间会碰撞出什么火花呢?
“斯坦福小镇”项目应该是最有名的Multi-Agent项目,在这个虚拟的小镇里,有25 个独立的 AI 智能体在小镇上生活。他们的决策和行动并不是固定写死在系统里面的,每个智能体背后都连接着LLM大模型。他们有工作,会八卦,能组织社交,结交新朋友,甚至举办情人节派对,每个小镇居民都有独特的个性和背景故事。这些角色每天会自己制定计划,参与活动和做事情,还会主动和其他Agent交谈。同时,Agent交谈的内容会被存储在记忆数据库中,并在第二天的活动计划中被回忆和引用,是不是非常像人脑的记忆系统?“斯坦福小镇”项目也涌现出了许多颇有趣味性的社会学现象。
还有一个很著名的Multi-Agent项目叫。这个项目按照软件公司的组织架构,定义了多个AI智能体角色,包括产品经理、架构师、项目管理员、工程师和测试人员等角色。各角色之间通过相互协作,基本可以胜任完成500行左右代码的小工程了。随着AI Agent的进一步强大,在未来每个人完全可以开一家虚拟公司,自己承接物理世界的真实需求,然后交给虚拟公司的员工完成,非常具有想象空间。
这就是AI Agent到目前为止的大体发展过程,LLM大模型的出现是Agent发展的拐点,Agent的发展速度如火箭般攀升。那么站在现在看未来,AI Agent会有怎么样的发展趋势呢?
2. AI Agent的未来发展趋势
在《大佬们都在关注的AI Agent,到底是什么?用5W1H分析框架拆解AI Agent(上篇)》中,风叔有介绍到,目前AI Agent最大的局限就是可靠性不足。因为LLM大模型容易出现幻觉和不一致性,将多个AI步骤连起来会进一步加剧可靠性问题,从而难以获得用户信任。举个例子,假设每个步骤LLM的可靠性是95%,如果一个任务需要被分解到5步以上,那么最终的可靠性将不到80%,这会大大限制AI Agent在一些场景下的应用。
未来,AI Agent的发展,必须首先要解决可靠性不足的问题,而解决可靠性不足的问题,就得从任务分解与反思、记忆优化、 准确性这几个维度入手。
1)任务分解与反思
现在的 Agent 只是一个规划器,它负责做规划。但实际上,这个流程中还存在很多未明确的问题,比如是否存在一个内部加工过程,以及这个过程是否透明可控等。
类比我们人类思考的过程,人脑有两套系统,系统1和系统2。系统1是快思考,出自于人类天生的本能,思考时间快,消耗能量少。系统2是慢思考,人类的逻辑能力、推理能力和归纳能力,皆是出自于系统2,而且系统2思考时间慢,消耗能量大。系统2的能力大多数都是人类后天习得的,但是经过不断地刻意练习后,一部分能力也能由系统2转移到系统1,由慢思考变为快思考。
对于任务分别的难题,一种可能的解决办法是将内部加工过程外部化,用系统2包裹起来,使每一步细粒度的思考都可以展现出来。但是具体如何用系统2进行包裹,风叔也还没有具体的思路,需要持续关注AI Agent最新的论文和进展。
2) 记忆优化
目前,AI Agent的记忆机制是把所有的信息,以向量数据的方式存储在历史记录里,然后在需要的时候进行召回。这种记忆方式,站在工程化的角度,其实也比较合理,但是在实际使用中,会出现一些问题。
首先,历史记忆会越积越多,当数据量到达一定程度之后,数据召回的速率就会显著下降,从而影响AI Agent的反应速度。其次,在记忆数据库中,一定会存在大量的错误信息,或者不合时宜的信息,但是AI Agent很难判断哪些记忆是需要修正的。
人类的记忆其实是有重塑机制的,人类在获得大量相关的知识后,不会简单地把它们堆积在脑中,而是通过海马体进行重整。比如在我们做梦时,大脑会重新构造这些相关的知识,使得记忆网络变得有序。同时,人类可以主动删除一些不好的记忆,或者错误的记忆,比如很多生活中无关紧要的信息,人脑就会逐渐遗忘掉,从而避免记忆负荷越来越大。
所以在未来,AI Agent一定要优化记忆系统,不能简单的将长短时记忆简化为向量数据库。
3) 准确性
目前, 是AI Agent进行工具使用的最主要的手段,可以说AI Agent的执行能力强依赖于大模型的 能力。但是目前的 的准确性其实并不理想,表现最好的大模型其准确率也只有86%。
86%意味着什么?
意味着,目前的AI Agent还只能应用在对准确率要求不高、有人类进行兜底的场景,比如撰写论文或调研报告、智能客服等等。对于更加严谨的场景,比如工业、医疗、能源,还难以有AI Agent的用武之地。
还意味着,如果AI Agent需要执行一连串的任务,哪怕只有5个环节,整体流程的准确率将下降到不足30%,即系统不可用。
所以在未来,AI Agent一定要提升 的准确性,或者有更准确的API调用方式。只有当准确率达到99.99%以上时,AI Agent才能在更为广阔的工业界生根发芽。
4)多模态与世界模型
除了以上三个维度之外,还有一个非常关键的点,即多模态和世界模型。
在漫长的进化历史中,生物神经网络从简单的条件反射逐渐进化到今天的主动预测,我们已经可以在大脑中构建世界模型,进行强大的推理和分析。比如当我们看到晚霞时,就会知道明天大概率是个晴天;比如当我们感知到建筑发生摇晃时,就知道很有可能发生了地震,需要赶紧去一个安全的地方。
现在的大模型主要是通过语言进行交互,这样显然是不够的。如果要进一步理解世界,一定需要多模态输入,包括视觉、听觉、传感器等等。因此,未来的AI Agent一定会更多和物理实体相结合,比如将AI Agent集成进入机器狗,训练其进行救援任务。在这个过程中,对于时间的认知、身体运动的控制也需要集成到AI Agent里面去。
AI Agent的发展速度太快了,每个月甚至每周,都有新的研究成果、新的产品问世。我们能做的,就是躬身入局,时刻关注大模型和Agent的发展。
二、5W1H分析框架之Who
接下来,我们再从”Who”这个维度拆解一下AI Agent,主要回答AI Agent领域都有哪些核心玩家这一关键问题。
风叔将从三个角度来进行拆解:从AI Agent框架本身,从AI Agent的行业场景,以及从国内AI Agent生态。
1. 从AI Agent框架本身
下面这张图来自风险投资公司Aura 的《自主人工智能体新兴市场格局》,按照AI Agent的框架,将整个Agent产业自下而上分成了三层:最下面为用于智能体运营()的模块插件层,中间为程序应用层(),最上面为服务层()。整个划分非常清晰,唯一美中不足的是,这张图成图于去年,因此难以揭示目前最新的Agent发展状况。
1)运营层
我们先来看最下面的,非常明显了采用了AI Agent的组成架构,即智能(,负责)、记忆()、工具使用(Tools & )。此外,还有多智能体环境和协议(Multi-agent and )、监控/安全和预算(, and )、以及智能体运营市场( )等辅助模块。
2) Agent应用层
Agent应用程序层包括通用应用( )和行业应用( )
通用应用主要偏个人应用场景,比如个人生活助理、商务助理、日常工作助理等等。典型的产品包括Embra AI、Adept AI、 AI。
行业应用主要偏业务垂直场景,比如编程、营销、金融、供应链等等。典型的产品包括Quill AI、 AI等等
3)Agent服务层
Agent服务层主要包括智能体搭建平台和智能体市场。
智能体搭建平台是一种低代码平台,支持普通用户通过简单的配置搭建属于自己的Agent,大幅降低AI Agent的创建门槛。目前智能体搭建平台受到了很多大厂的青睐,因为大厂很难一开始基于某些垂类场景开发Agent应用,因此智能体搭建平台成为最实际的选择。比如微软的、百度智能体平台、字节Coze、腾讯元器等等。
下图是字节Coze的智能体搭建的示意图,提供了非常丰富的组件,方便用户通过拖拉拽的方式快速搭建AI Agent。在后续文章中,风叔还会专门介绍搭建AI Agent的具体方法。
很多智能体搭建平台也对外开放了Agent市场,使用者将自己搭建的Agent部署上线之后,其他用户也能搜索并使用。下图是字节Coze的Agent市场示例图。
2. 从AI Agent行业场景
E2B出品的这份AI Agent行业全景图是相对比较完整的。整张图有两个维度,第一个维度是开源和闭源,第二个维度是AI应用,包括了、、 、HR、Data 、 、、、、、等细分领域。
每个细分领域具体的玩家就不一一列举了,大家可以详细参考下图。另外,这张图是持续更新的,通过这个地址 ,大家就能看到最新的进展,以及E2B对每个玩家的详细介绍。
3. 国内生态
目前国内的AI Agent发展也十分迅猛,下图是甲子光年出品的中国AI Agent生态图谱1.0,将整个AI Agent行业分为三层。
最底层是算力层,包括像阿里云、AWS、华为云这类提供底层GPU算力的云厂商。
中间是平台框架层,包括面向企业业务工作流场景的企业级AI Agent平台,比如钉钉、汇智智能、澜码科技。以及面向个人开发者或普通用户的AI Agent平台,比如百度文心智能体平台、阿里、字节扣子等。
最上层是垂直应用层,比如专注于金融行业的Easy Link、招聘行业的用友和Moka、营销领域的。
对于普通的创业者或创业团队来说,肯定没有足够的资源投入大模型赛道,但是站在大模型的肩膀上,选择一个相对垂直的领域做AI Agent,服务于企业客户的具体业务流程和场景,是更加切实可行的选择。
三、5W1H分析框架之Where
AI Agent的发展正在以前所未有的速度改变我们的生活和工作方式。接下来我们从行业视角来分析一下,在具体的行业中AI Agent都有哪些可落地的场景。
1. 电商&零售2. 制造业3. 医疗行业
AI Agent在各个行业都有非常多的应用场景,除了上述介绍的电商、制造、医疗之外,还包括金融、物流、能源、人资、旅游、教育等等行业,风叔就不在文章里一一赘述了。
风叔专门整理了一张行业应用场景的脑图,感兴趣的读者可以关注WXGZH“风叔云”,回复“AI Agent应用场景”,即可获取完整的应用场景图。
四、总结
本篇文章是使用5W1H分析框架拆解AI Agent的中篇,围绕When、Who和Where,详细阐述了AI Agent的发展历程、行业玩家和具体应用场景。
在下一篇文章中,风叔将围绕How,详细介绍AI Agent的具体实现路径,以及如何更快的上手学习AI Agent。
323AI导航网发布