ai软件框架大佬们都在关注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent

3,513 0 0

从AI Agent的起源到其在不同阶段的技术突破，再到对未来发展方向的预测，文章详细阐述了AI Agent如何逐步演变为今天的形态，并探讨了其在解决复杂任务中的潜力和挑战。对于希望了解AI Agent及其在现代科技中角色的读者来说，这是一篇不可错过的文章。

本篇文章是使用5W1H分析框架拆解AI Agent的中篇，在进入正文之前，先总体回顾这一系列文章的脉络。

上篇：介绍What + Why，主要解答以下问题。

What：AI Agent是什么？AI Agent有哪些组成部分？AI Agent的原理是什么？AI Agent是怎么分类的？

Why：为什么会产生AI Agent？AI Agent的优势和劣势是什么？为什么企业和个人都要关注AI Agent？

中篇：介绍When + Where + Who，主要解答以下问题。

When：AI Agent的发展历程是怎样的？AI Agent未来的发展趋势是怎样的？

Where：AI Agent有哪些应用场景？

Who：AI Agent领域的玩家有哪些？AI Agent领域的行业价值链是怎样的？

下篇：介绍 How，主要解答以下问题。

How：如何实现AI Agent？AI Agent包括哪些系统模块？如何开始学习AI Agent？

想了解全部内容的同学，可以关注WXGZH“风叔云”，回复关键词“拆解AI Agent”，获得《5W1H分析框架拆解AI Agent》的完整PPT文件。

在《大佬们都在关注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）》中，围绕What和Why，风叔详细阐述了AI Agent的概念、构成、分类、产生原因、优势劣势、以及对企业和个人的影响。

在这篇文章中，风叔将围绕When、Who和Where，详细介绍AI Agent的发展历程、行业玩家和具体应用场景。

一、5W1H分析框架之When1. AI Agent的发展历程

对于一直关注AI大模型的读者来说，下图应该不陌生。下面我们就沿着这个脉络，回顾一下AI Agent的发展历程。

阶段一，LLM大模型时代之前的Agent

Agent这一概念其实要早于LLM大模型，最早可以起源于马文明斯基在80年代出版的《智能社会》这本书，Agent理论在LLM大模型出来之前，也已经被学术界研究了很多年。

在《大佬们都在关注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）》中，风叔有介绍AI Agent的核心三大组成部分，、Brain和，其中最关键的部分就是具备记忆、规划和推理能力的Brain。在大模型出现之前，Agent的技术始终面临天花板，无法取得实质性的进步，其核心就是缺乏具备规划和推理能力的Brain，且这种Brain还需要具有良好的通用性和泛化性。

在LLM大模型出现之前，比较知名的垂直领域 Agent 的例子比如，它有感知环境、思考决策、采取行动的闭环逻辑。还有的，使用强化学习方式让Agent学习打游戏，以及玩“躲猫猫”的多智能体。

在这一阶段，常规的Agent更多采用结构化固定模式，通过实现固定算法流程来完成一些自动化任务。而大模型为Agent带来了灵活性，使其可以应对人类在脑力劳动中面临的各种复杂的长尾任务，进一步实现体力和脑力任务的全面自动化。

LLM大模型是第一个可以自主学习并拥有广泛知识的AI模型，以LLM大模型作为Brain武装起来的AI Agent，开始迅速发展。

阶段二，工程

在LLM大模型刚问世的时候，大家都喜欢工程。用户通过描述角色技能、任务关键词、任务目标及任务背景等信息，告诉大模型需要输出的格式，然后大模型进行输出。

用户们也充分发挥自己的聪明才智，发展了各种各样的工程的玩法，如角色扮演、零样本提示和少样本提示。比如在少样本提示下，用户只需要给出少量示例，大模型就能学习到示例背后的逻辑，从而给出正确的答复。

当任务过于复杂时，超出了单一的能力时，可以通过分解任务，构建多来协同解决。最常见的协同形式就是提示链 Chain， Chain 将原有需求进行分解，通过用多个小的来串联或并联，共同解决一项复杂任务，如下图所示。

阶段三，大模型插件

虽然工程很强大，但是仅凭工程根本无法满足人们日益增长的复杂需求。由于大模型本身的诸多缺陷，如不能及时更新知识，上下文长度有限等等，工程师们开始给大模型加入插件。

比如引入向量数据库，对某些特定的专属数据进行切片、分块和向量化，然后把数据索引进向量数据库。当用户进行输入时，先通过数据召回找到最匹配的数据分块，再提交给大模型做工程，这样就可以使用到最新的和最准确的知识。这就是检索增强生成RAG，- 。

同时，为了让大模型更好地和物理世界交互，工程师们尝试让 GPT 调用函数和使用工具。一系列关于工具使用的实践开始出现，比如和API Bank，也推出了自己的插件体系。

阶段四，任务分解与反思

大模型在一些简单的任务上取得了还不错的结果，人们开始往更深处探索大模型的智能，尤其是处理复杂问题上的能力，这就涉及到了对复杂任务的分解，以及在行动过程中的反思。

(1) 思维链COT

当我们对LLM这样要求「think step by step」，会发现LLM会把问题分解成多个步骤，一步一步思考和解决，能使得输出的结果更加准确

(2) COT-SC

ai软件框架大佬们都在关注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent

一个CoT有时可能出现错误，我们可以让Agent进行发散，尝试通过多种思路来解决问题，然后投票选择出最佳答案，这就是CoT-SC。

(3) 思维树TOT

思维树TOT是对思维链CoT的进一步扩展，在思维链的每一步，推理出多个分支，拓扑展开成一棵思维树。使用启发式方法评估每个推理分支对问题解决的贡献。选择搜索算法，使用广度优先搜索（BFS）或深度优先搜索（DFS）等算法来探索思维树，并进行前瞻和回溯。

(4)思维图GOT

思维树ToT 的方式也存在一些缺陷，对于需要分解后再整合的问题，比如排序问题，排序我们可能需要分解和排序，然后再merge。这种情况下TOT就不行了，可以引入思维图GOT来解决。

当人们发现大模型的推理能力还是不足时，开始试图让模型自身清楚地描述问题，把问题转化为 PDDL （）格式的描述语言，通过调用通用规划器来解决规划问题，再把解决方案转化为可执行的动作，以更好地逻辑推理和规划等任务。这就是LLM+P

上面几种思路都是在解决任务分解问题，工程师们也想到了很多解决大模型反思和完善自身行动的思路。

首先是ReACT，全称是-，这种模式是让大模型先进行思考，思考完再进行行动，然后根据行动的结果再进行观察，再进行思考，这样一步一步循环下去。这种行为模式基本上就是人类这样的智能体主要模式。

然而，工程师觉得这样仍然不够，他们希望大模型在完成每一个任务后，能够积累经验和教训、因此产生了借鉴强化学习思路的”反射”机制，反射机制能够让机器记住每一次任务的完成情况，无论效果好坏，以供未来参考，提升模型的性能。这就是。

阶段五，Agent问世

随着各项基础设施的逐步完善，更大的变革轰然袭来，这就是Agent。2023年4月横空出世正式宣告了LLM Agent的来临，短短数周就获得了9万星，赚足了眼球。

下图是的架构图，旨在实现对任务的有效管理。生成的任务将会被加入优先级队列中，随后系统会不断从优先队列中选择优先级最高的任务进行执行，整个过程中，任何反馈都会通过记忆进行迭代优化代码

随后，更多的LLM Agent如雨后春笋般爆发出来，比如微软的、专门用于写小说的、清华联合面壁推出的双循环机制、虚拟世界中的智能体等等。

然后，工程师们就想到了Multi-Agent，既然 Agent已经具备了独立决策和行动能力，如果将多个Agent放到一个环境中，他们之间会碰撞出什么火花呢？

“斯坦福小镇”项目应该是最有名的Multi-Agent项目，在这个虚拟的小镇里，有25 个独立的 AI 智能体在小镇上生活。他们的决策和行动并不是固定写死在系统里面的，每个智能体背后都连接着LLM大模型。他们有工作，会八卦，能组织社交，结交新朋友，甚至举办情人节派对，每个小镇居民都有独特的个性和背景故事。这些角色每天会自己制定计划，参与活动和做事情，还会主动和其他Agent交谈。同时，Agent交谈的内容会被存储在记忆数据库中，并在第二天的活动计划中被回忆和引用，是不是非常像人脑的记忆系统？“斯坦福小镇”项目也涌现出了许多颇有趣味性的社会学现象。

还有一个很著名的Multi-Agent项目叫。这个项目按照软件公司的组织架构，定义了多个AI智能体角色，包括产品经理、架构师、项目管理员、工程师和测试人员等角色。各角色之间通过相互协作，基本可以胜任完成500行左右代码的小工程了。随着AI Agent的进一步强大，在未来每个人完全可以开一家虚拟公司，自己承接物理世界的真实需求，然后交给虚拟公司的员工完成，非常具有想象空间。

这就是AI Agent到目前为止的大体发展过程，LLM大模型的出现是Agent发展的拐点，Agent的发展速度如火箭般攀升。那么站在现在看未来，AI Agent会有怎么样的发展趋势呢？

2. AI Agent的未来发展趋势

在《大佬们都在关注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）》中，风叔有介绍到，目前AI Agent最大的局限就是可靠性不足。因为LLM大模型容易出现幻觉和不一致性，将多个AI步骤连起来会进一步加剧可靠性问题，从而难以获得用户信任。举个例子，假设每个步骤LLM的可靠性是95%，如果一个任务需要被分解到5步以上，那么最终的可靠性将不到80%，这会大大限制AI Agent在一些场景下的应用。

未来，AI Agent的发展，必须首先要解决可靠性不足的问题，而解决可靠性不足的问题，就得从任务分解与反思、记忆优化、准确性这几个维度入手。

1）任务分解与反思

现在的 Agent 只是一个规划器，它负责做规划。但实际上，这个流程中还存在很多未明确的问题，比如是否存在一个内部加工过程，以及这个过程是否透明可控等。

类比我们人类思考的过程，人脑有两套系统，系统1和系统2。系统1是快思考，出自于人类天生的本能，思考时间快，消耗能量少。系统2是慢思考，人类的逻辑能力、推理能力和归纳能力，皆是出自于系统2，而且系统2思考时间慢，消耗能量大。系统2的能力大多数都是人类后天习得的，但是经过不断地刻意练习后，一部分能力也能由系统2转移到系统1，由慢思考变为快思考。

对于任务分别的难题，一种可能的解决办法是将内部加工过程外部化，用系统2包裹起来，使每一步细粒度的思考都可以展现出来。但是具体如何用系统2进行包裹，风叔也还没有具体的思路，需要持续关注AI Agent最新的论文和进展。

2）记忆优化

目前，AI Agent的记忆机制是把所有的信息，以向量数据的方式存储在历史记录里，然后在需要的时候进行召回。这种记忆方式，站在工程化的角度，其实也比较合理，但是在实际使用中，会出现一些问题。

首先，历史记忆会越积越多，当数据量到达一定程度之后，数据召回的速率就会显著下降，从而影响AI Agent的反应速度。其次，在记忆数据库中，一定会存在大量的错误信息，或者不合时宜的信息，但是AI Agent很难判断哪些记忆是需要修正的。

人类的记忆其实是有重塑机制的，人类在获得大量相关的知识后，不会简单地把它们堆积在脑中，而是通过海马体进行重整。比如在我们做梦时，大脑会重新构造这些相关的知识，使得记忆网络变得有序。同时，人类可以主动删除一些不好的记忆，或者错误的记忆，比如很多生活中无关紧要的信息，人脑就会逐渐遗忘掉，从而避免记忆负荷越来越大。

所以在未来，AI Agent一定要优化记忆系统，不能简单的将长短时记忆简化为向量数据库。

3）准确性

目前，是AI Agent进行工具使用的最主要的手段，可以说AI Agent的执行能力强依赖于大模型的能力。但是目前的的准确性其实并不理想，表现最好的大模型其准确率也只有86%。

86%意味着什么？

意味着，目前的AI Agent还只能应用在对准确率要求不高、有人类进行兜底的场景，比如撰写论文或调研报告、智能客服等等。对于更加严谨的场景，比如工业、医疗、能源，还难以有AI Agent的用武之地。

还意味着，如果AI Agent需要执行一连串的任务，哪怕只有5个环节，整体流程的准确率将下降到不足30%，即系统不可用。

ai软件框架大佬们都在关注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent

所以在未来，AI Agent一定要提升的准确性，或者有更准确的API调用方式。只有当准确率达到99.99%以上时，AI Agent才能在更为广阔的工业界生根发芽。

4）多模态与世界模型

除了以上三个维度之外，还有一个非常关键的点，即多模态和世界模型。

在漫长的进化历史中，生物神经网络从简单的条件反射逐渐进化到今天的主动预测，我们已经可以在大脑中构建世界模型，进行强大的推理和分析。比如当我们看到晚霞时，就会知道明天大概率是个晴天；比如当我们感知到建筑发生摇晃时，就知道很有可能发生了地震，需要赶紧去一个安全的地方。

现在的大模型主要是通过语言进行交互，这样显然是不够的。如果要进一步理解世界，一定需要多模态输入，包括视觉、听觉、传感器等等。因此，未来的AI Agent一定会更多和物理实体相结合，比如将AI Agent集成进入机器狗，训练其进行救援任务。在这个过程中，对于时间的认知、身体运动的控制也需要集成到AI Agent里面去。

AI Agent的发展速度太快了，每个月甚至每周，都有新的研究成果、新的产品问世。我们能做的，就是躬身入局，时刻关注大模型和Agent的发展。

二、5W1H分析框架之Who

接下来，我们再从”Who”这个维度拆解一下AI Agent，主要回答AI Agent领域都有哪些核心玩家这一关键问题。

风叔将从三个角度来进行拆解：从AI Agent框架本身，从AI Agent的行业场景，以及从国内AI Agent生态。

1. 从AI Agent框架本身

下面这张图来自风险投资公司Aura 的《自主人工智能体新兴市场格局》，按照AI Agent的框架，将整个Agent产业自下而上分成了三层：最下面为用于智能体运营（）的模块插件层，中间为程序应用层（），最上面为服务层（）。整个划分非常清晰，唯一美中不足的是，这张图成图于去年，因此难以揭示目前最新的Agent发展状况。

1）运营层

我们先来看最下面的，非常明显了采用了AI Agent的组成架构，即智能（，负责）、记忆（）、工具使用（Tools & ）。此外，还有多智能体环境和协议（Multi-agent and ）、监控/安全和预算（, and ）、以及智能体运营市场（）等辅助模块。

2） Agent应用层

Agent应用程序层包括通用应用（）和行业应用（）

通用应用主要偏个人应用场景，比如个人生活助理、商务助理、日常工作助理等等。典型的产品包括Embra AI、Adept AI、 AI。

行业应用主要偏业务垂直场景，比如编程、营销、金融、供应链等等。典型的产品包括Quill AI、 AI等等

3）Agent服务层

Agent服务层主要包括智能体搭建平台和智能体市场。

智能体搭建平台是一种低代码平台，支持普通用户通过简单的配置搭建属于自己的Agent，大幅降低AI Agent的创建门槛。目前智能体搭建平台受到了很多大厂的青睐，因为大厂很难一开始基于某些垂类场景开发Agent应用，因此智能体搭建平台成为最实际的选择。比如微软的、百度智能体平台、字节Coze、腾讯元器等等。

下图是字节Coze的智能体搭建的示意图，提供了非常丰富的组件，方便用户通过拖拉拽的方式快速搭建AI Agent。在后续文章中，风叔还会专门介绍搭建AI Agent的具体方法。

很多智能体搭建平台也对外开放了Agent市场，使用者将自己搭建的Agent部署上线之后，其他用户也能搜索并使用。下图是字节Coze的Agent市场示例图。

2. 从AI Agent行业场景

E2B出品的这份AI Agent行业全景图是相对比较完整的。整张图有两个维度，第一个维度是开源和闭源，第二个维度是AI应用，包括了、、、HR、Data 、、、、、、等细分领域。

每个细分领域具体的玩家就不一一列举了，大家可以详细参考下图。另外，这张图是持续更新的，通过这个地址，大家就能看到最新的进展，以及E2B对每个玩家的详细介绍。

3. 国内生态

目前国内的AI Agent发展也十分迅猛，下图是甲子光年出品的中国AI Agent生态图谱1.0，将整个AI Agent行业分为三层。

最底层是算力层，包括像阿里云、AWS、华为云这类提供底层GPU算力的云厂商。

中间是平台框架层，包括面向企业业务工作流场景的企业级AI Agent平台，比如钉钉、汇智智能、澜码科技。以及面向个人开发者或普通用户的AI Agent平台，比如百度文心智能体平台、阿里、字节扣子等。

最上层是垂直应用层，比如专注于金融行业的Easy Link、招聘行业的用友和Moka、营销领域的。

对于普通的创业者或创业团队来说，肯定没有足够的资源投入大模型赛道，但是站在大模型的肩膀上，选择一个相对垂直的领域做AI Agent，服务于企业客户的具体业务流程和场景，是更加切实可行的选择。

三、5W1H分析框架之Where