定义以及历史发展
智能体(Agent)的定义与历史沿革
在人工智能(AI)领域中,“智能体”(Agent)是一个非常重要的概念。随着技术的不断发展,智能体的定义也在不断演进。从简单的对话系统到能够自主行动的复杂系统,智能体在各个层级的能力差异显而易见。本文将从 OpenAI 对 AGI(通用人工智能)五级分类的角度,逐步探讨智能体的定义与发展。
OpenAI 在 AGI 五级分类中对于 Agent 的定义
OpenAI 提出了一个五级分类体系,用于描述人工智能系统的能力范围和层次。这一分类系统为我们理解智能体的能力演进提供了清晰的框架。
Level 1: Conversational AI
第一层级是对话型人工智能(Conversational AI)。这一层级的 AI 系统能够与人类进行对话互动,例如 ChatGPT。这类系统的主要特点是:
- 专注于基于语言的任务:例如回答问题、生成文本等。
- 能力有限:无法执行复杂的问题求解任务。
Level 2: Reasoners
第二层级是推理型 AI 系统(Reasoners)。这些系统在学术和专业领域中表现出色,能够解决复杂的问题。其特点在于:
- 无需外部工具:仅依赖自身算法和模型即可完成任务。
- 具备较强的推理能力:适用于更复杂的场景。
Level 3: Agents
第三层级是智能体(Agents)。这是 AI 系统从工具型向自主型迈进的重要阶段,其核心特点包括:
- 长时间自主行动:可以代表用户执行任务,无需监督。
- 多任务处理能力:能够在数天内完成多种任务,包括决策和行动。
Level 4: Innovators
第四层级是创新者(Innovators)。这一阶段的 AI 系统不仅能够完成任务,还能推动领域内的创新。其主要特点包括:
- 产生新思想和创新:开发原创方案,推动科学技术的突破。
- 更高层次的智能:超越传统意义上的任务执行。
Level 5: Organizers
第五层级是组织者(Organizers)。这是目前最为高级的 AI 系统,其能力远超人类在复杂任务中的表现。其特点包括:
- 管理整个组织:可以协调复杂流程。
- 超越人类绩效:在高价值任务中表现卓越。
智能体的核心定义
智能体(Agent)的核心定义是一个能够感知环境、自主决策、主动行动和学习进化的 AI 程序。这个定义包含了智能体实现其功能所需的四大关键能力:感知、决策、行动和学习。
感知:智能体的“眼睛”
感知是智能体与外界环境交互的基础。通过感知,智能体能够获取环境信息,为后续决策提供依据。常见的感知方式包括:
- 视觉感知:通过摄像头捕捉图像。
- 听觉感知:通过麦克风接收声音。
决策:智能体的“大脑”
决策是智能体进行自主行动的核心环节,其背后依赖于复杂的算法和模型。例如:
- 深度学习:通过神经网络从大量数据中提取特征并进行推断。
- 强化学习:通过试错和反馈机制优化决策策略。
与其讨论 Agent,不如讨论 Agentic
在大模型(Large Language Model,LLM)领域,技术发展日新月异,而关于“Agent”(智能体)的定义,目前并没有一个统一的说法。尤其是在主流的基于 LLM 的 Agent 设计中,各种实现方式和理解层出不穷。因此,吴恩达(Andrew Ng)和 Horrison 等人提出了一个非常值得深思的观点:与其争论某个系统是否属于智能体,不如承认这个世界并非非黑即白。一个系统可以是渐进的,可以具备不同程度的智能体属性(Agentic)。这就像自动驾驶汽车有 L1-L4 不同级别的自主性一样。
本文将围绕系统的智能体属性(Agentic)展开讨论,并分析其不同层级的实现方式。
系统的 Agentic 程度由什么决定?
一个系统的 Agentic 程度,主要取决于 LLM 对系统行为决策的权重。换句话说,LLM 在系统中承担了多大程度的自主性和决策能力,直接影响了该系统在智能体属性上的表现。
接下来,我们将通过几个典型的层级,逐步剖析 Agentic 的不同实现方式。
1. 初步的 Agentic:路由器(Router)
当一个系统使用 LLM 将输入路由到特定的下游工作流时,它具备了初步的 Agentic 属性。这种情况下,LLM 的作用类似于一个“路由器”,它根据输入内容的特征,选择合适的路径或模块来处理任务。
这一层级的特点是:
- LLM 仅起到简单的分发作用;
- 系统的行为是线性的,没有复杂的决策逻辑;
- 虽然具备一定智能性,但整体自主性较低。
2. 多级路由决策:介于路由器与状态机之间
如果一个系统使用多个 LLM 进行多级路由决策,那么它在 Agentic 属性上更进一步。这种设计允许系统在不同阶段调用不同的模型或模块,从而实现更复杂的任务分配和处理。
这一层级可以被视为介于“路由器”和“状态机”之间。相比单一 LLM 路由器,多级路由决策增加了以下能力:
- 在多个步骤中动态调整任务流程;
- 根据上下文信息灵活选择下一步操作;
- 系统开始表现出一定程度的非线性行为。
3. 状态机(State Machine):允许循环运行
当一个系统能够在某些步骤中决定是继续执行还是终止任务时,它就进入了状态机(State Machine)的范畴。状态机的核心特性在于:
- 系统可以根据当前状态和上下文信息,决定进入下一个状态;
- 允许循环运行,直到完成任务或满足某个条件。
例如,一个状态机型系统可能会反复检查任务进展,并动态调整策略,直到目标达成。这种能力显著增强了系统的自主性,使其具备更高程度的 Agentic 属性。
4. 自主 Agent(Autonomous Agent):顶层智能体
当系统能够自主构建工具、记忆工具并在后续步骤中使用时,它就达到了 Agentic 的顶层——自主 Agent(Autonomous Agent)。这种系统不仅能够完成复杂任务,还能在执行过程中:
- 动态生成新的工具或方法;
- 将生成的工具存储为记忆,以便未来使用;
- 在任务执行中不断学习和优化自身行为。
自主 Agent 的出现标志着系统从被动执行者转变为主动决策者,其智能体属性已接近真正意义上的自主智能体。