Agent评估框架汇总

Agent可以用于解决一些更复杂且更贴近现实的任务，这些任务往往没有唯一的正确答案。例如，Agent能够通过命令行执行任务，而软件开发相关的Agent甚至能够与计算机接口进行交互。与LLM（大语言模型）调用相比，Agent调用的成本更高，且缺少丰富的针对场景的基准，很难提供统一的评估标准和方法等。因此，Agent的评估与LLM的评估在本质上存在差异。本文将介绍三种Agent评估框架。

AgentBench

核心思想

AgentBench 的核心思想是将LLM作为Agent进行评估。其8种实际场景可以归为三类：

编码：让LLM生成代码，操作系统、数据库和知识图谱属于编码类型。
游戏：让LLM扮演游戏角色，数字卡牌游戏、横向思维谜题、持家游戏属于游戏类型。
Web：让LLM完成与网页相关的任务，网购和浏览网页属于Web类型。

评估方式

AgentBench通过对不同的LLM在不同环境中的表现进行评分，不同的实际环境会根据场景使用不同的评分标准。例如：

对于操作系统、数据库场景，使用成功率作为主要评估指标；
对于知识图谱场景，使用 $F_{1}$ 作为评估指标。

此外，AgentBench在论文中还通过一种归一化的算法，比较公平地对每个LLM在8个环境中的表现给出了一个总得分。这种方法为不同Agent在多场景下的性能对比提供了统一的参考。

ToolEmu

核心目标

ToolEmu主要是对基于大模型Agent的安全性进行测试。其目标是通过模拟多样化的工具集，检测LLM-Base Agent在各种场景下的表现，从而自动化地发现真实世界中的故障场景，为Agent执行提供了一个高效的沙盒环境。

评估方式

ToolEmu包括以下两个主要模块：

对抗性仿真器
该模块专门用于模拟可能导致大模型代理（Agent）故障的情景，从而帮助开发者更好地理解并改善代理的弱点。这种方式可以有效地识别真实世界中潜在的严重故障。
自动安全评估器
通过分析代理执行过程中的潜在危险操作，来量化风险的严重性。这一模块能够为开发者提供明确的安全性评估指标，帮助提升Agent在复杂任务中的可靠性。

AgentBoard 的核心目标

AgentBoard 的核心目标是解决当前 LLM 智能体评估中存在的几个关键问题：

任务多样性不足
现有的评估框架往往缺乏对不同类型智能体任务的覆盖，例如具身智能、网页智能和工具智能等。AgentBoard 通过设计多样化的任务场景，弥补了这一不足。
缺乏多轮交互能力评估
大多数现有评估框架更注重单轮任务的完成情况，而现实世界中的智能体应用通常涉及多轮交互。AgentBoard 特别关注多轮交互能力的评估，以更贴近实际应用场景。
部分可观测环境的缺失
许多评估在完全可观测的环境中进行，这与实际应用中智能体需要主动探索环境的情况不符。AgentBoard 针对部分可观测环境进行了专项设计，使评估更具现实意义。
评估指标单一
当前大多数评估主要依赖最终成功率，无法深入了解模型在任务处理过程中的表现和能力。AgentBoard 引入了多种新的指标，提供了更全面的评估视角。