定义以及历史发展

智能体（Agent）的定义与历史沿革

在人工智能（AI）领域中，“智能体”（Agent）是一个非常重要的概念。随着技术的不断发展，智能体的定义也在不断演进。从简单的对话系统到能够自主行动的复杂系统，智能体在各个层级的能力差异显而易见。本文将从 OpenAI 对 AGI（通用人工智能）五级分类的角度，逐步探讨智能体的定义与发展。

OpenAI 在 AGI 五级分类中对于 Agent 的定义

OpenAI 提出了一个五级分类体系，用于描述人工智能系统的能力范围和层次。这一分类系统为我们理解智能体的能力演进提供了清晰的框架。

Level 1: Conversational AI

第一层级是对话型人工智能（Conversational AI）。这一层级的 AI 系统能够与人类进行对话互动，例如 ChatGPT。这类系统的主要特点是：

专注于基于语言的任务：例如回答问题、生成文本等。
能力有限：无法执行复杂的问题求解任务。

Level 2: Reasoners

第二层级是推理型 AI 系统（Reasoners）。这些系统在学术和专业领域中表现出色，能够解决复杂的问题。其特点在于：

无需外部工具：仅依赖自身算法和模型即可完成任务。
具备较强的推理能力：适用于更复杂的场景。

Level 3: Agents

第三层级是智能体（Agents）。这是 AI 系统从工具型向自主型迈进的重要阶段，其核心特点包括：

长时间自主行动：可以代表用户执行任务，无需监督。
多任务处理能力：能够在数天内完成多种任务，包括决策和行动。

Level 4: Innovators

第四层级是创新者（Innovators）。这一阶段的 AI 系统不仅能够完成任务，还能推动领域内的创新。其主要特点包括：

产生新思想和创新：开发原创方案，推动科学技术的突破。
更高层次的智能：超越传统意义上的任务执行。

Level 5: Organizers

第五层级是组织者（Organizers）。这是目前最为高级的 AI 系统，其能力远超人类在复杂任务中的表现。其特点包括：

管理整个组织：可以协调复杂流程。
超越人类绩效：在高价值任务中表现卓越。

智能体的核心定义

智能体（Agent）的核心定义是一个能够感知环境、自主决策、主动行动和学习进化的 AI 程序。这个定义包含了智能体实现其功能所需的四大关键能力：感知、决策、行动和学习。

感知：智能体的“眼睛”

感知是智能体与外界环境交互的基础。通过感知，智能体能够获取环境信息，为后续决策提供依据。常见的感知方式包括：

视觉感知：通过摄像头捕捉图像。
听觉感知：通过麦克风接收声音。

决策：智能体的“大脑”

决策是智能体进行自主行动的核心环节，其背后依赖于复杂的算法和模型。例如：

深度学习：通过神经网络从大量数据中提取特征并进行推断。
强化学习：通过试错和反馈机制优化决策策略。

与其讨论 Agent，不如讨论 Agentic

在大模型（Large Language Model，LLM）领域，技术发展日新月异，而关于“Agent”（智能体）的定义，目前并没有一个统一的说法。尤其是在主流的基于 LLM 的 Agent 设计中，各种实现方式和理解层出不穷。因此，吴恩达（Andrew Ng）和 Horrison 等人提出了一个非常值得深思的观点：与其争论某个系统是否属于智能体，不如承认这个世界并非非黑即白。一个系统可以是渐进的，可以具备不同程度的智能体属性（Agentic）。这就像自动驾驶汽车有 L1-L4 不同级别的自主性一样。

本文将围绕系统的智能体属性（Agentic）展开讨论，并分析其不同层级的实现方式。

系统的 Agentic 程度由什么决定？

一个系统的 Agentic 程度，主要取决于 LLM 对系统行为决策的权重。换句话说，LLM 在系统中承担了多大程度的自主性和决策能力，直接影响了该系统在智能体属性上的表现。

接下来，我们将通过几个典型的层级，逐步剖析 Agentic 的不同实现方式。

1. 初步的 Agentic：路由器（Router）

当一个系统使用 LLM 将输入路由到特定的下游工作流时，它具备了初步的 Agentic 属性。这种情况下，LLM 的作用类似于一个“路由器”，它根据输入内容的特征，选择合适的路径或模块来处理任务。

这一层级的特点是：

LLM 仅起到简单的分发作用；
系统的行为是线性的，没有复杂的决策逻辑；
虽然具备一定智能性，但整体自主性较低。

2. 多级路由决策：介于路由器与状态机之间

如果一个系统使用多个 LLM 进行多级路由决策，那么它在 Agentic 属性上更进一步。这种设计允许系统在不同阶段调用不同的模型或模块，从而实现更复杂的任务分配和处理。

这一层级可以被视为介于“路由器”和“状态机”之间。相比单一 LLM 路由器，多级路由决策增加了以下能力：

在多个步骤中动态调整任务流程；
根据上下文信息灵活选择下一步操作；
系统开始表现出一定程度的非线性行为。

3. 状态机（State Machine）：允许循环运行

当一个系统能够在某些步骤中决定是继续执行还是终止任务时，它就进入了状态机（State Machine）的范畴。状态机的核心特性在于：

系统可以根据当前状态和上下文信息，决定进入下一个状态；
允许循环运行，直到完成任务或满足某个条件。

例如，一个状态机型系统可能会反复检查任务进展，并动态调整策略，直到目标达成。这种能力显著增强了系统的自主性，使其具备更高程度的 Agentic 属性。

4. 自主 Agent（Autonomous Agent）：顶层智能体

当系统能够自主构建工具、记忆工具并在后续步骤中使用时，它就达到了 Agentic 的顶层——自主 Agent（Autonomous Agent）。这种系统不仅能够完成复杂任务，还能在执行过程中：

动态生成新的工具或方法；
将生成的工具存储为记忆，以便未来使用；
在任务执行中不断学习和优化自身行为。

自主 Agent 的出现标志着系统从被动执行者转变为主动决策者，其智能体属性已接近真正意义上的自主智能体。