正文

LLM-Agent-Benchmark-List：大语言模型与智能体评测基准全景图谱

该项目系统梳理了面向大语言模型和AI智能体的各类评测基准，涵盖工具使用、推理能力、代码生成、多模态理解等多个维度，为AGI研究提供一站式资源索引。

LLM评测Agent基准大语言模型评估工具使用评测推理能力测试代码生成评测多模态基准智能体评测AGI研究AI Benchmark

发布时间 2026/04/14 13:45最近活动 2026/04/14 13:47预计阅读 2 分钟

LLM-Agent-Benchmark-List：大语言模型与智能体评测基准全景图谱

章节 01

【导读】LLM-Agent-Benchmark-List：AGI研究的评测基准全景图谱

该项目系统梳理了面向大语言模型（LLM）和AI智能体的各类评测基准，涵盖工具使用、推理能力、代码生成、多模态理解、智能体交互等多个维度，收录超过60个权威基准，为AGI研究者提供一站式资源索引，回答"评什么、在哪评、怎么评"三大核心问题。

章节 02

项目背景与核心定位

在LLM技术飞速迭代的今天，科学全面评估模型真实能力成为紧迫课题。zhangxjohn维护的LLM-Agent-Benchmark-List项目应运而生，系统性收集整理60+权威评测基准，覆盖从基础能力到高阶智能的完整维度，核心定位是解决"评什么、在哪评、怎么评"三大问题，为AGI研究者提供清晰路线图，避免重复造轮子。

章节 03

评测方法论的演进趋势

LLM评测方法论正经历深刻变革：1. 从静态到动态：如LiveBench用动态更新数据避免数据污染，NPHardEval通过算法生成无穷新题；2. 从单任务到多轮交互：现代智能体评测强调多轮上下文理解与策略调整，AgentBoard提供回合级分析；3. 从结果导向到过程评估：T-Eval逐步评估工具使用各环节，JudgeBench专门评测评判能力。

章节 04

各维度评测基准实例

项目覆盖多维度评测基准：\n- 工具使用：API-Bank（阿里，综合工具增强LLM评测）、ToolLLM（16000+真实API测试）、T-Eval（逐步评估工具使用环节）；\n- 推理规划：NPHardEval（NP难问题测推理深度）、PlanBench（多步规划）、AgentBench（清华综合智能体评测）；\n- 代码能力：HumanEval/MBPP（基础代码生成）、SWE-bench（真实GitHub Issue修复）、CRUXEval（代码推理理解执行）；\n- 多模态/多语言：MME（腾讯多模态感知认知）、M3Exam（多语言多模态考试）、AlignBench（中文对齐能力）；\n- 智能体交互：WebArena（网页环境任务）、OSWorld（操作系统任务）、MAgIC（多智能体协作）。

章节 05