章节 01
【导读】LLM-Agent-Benchmark-List:AGI研究的评测基准全景图谱
该项目系统梳理了面向大语言模型(LLM)和AI智能体的各类评测基准,涵盖工具使用、推理能力、代码生成、多模态理解、智能体交互等多个维度,收录超过60个权威基准,为AGI研究者提供一站式资源索引,回答"评什么、在哪评、怎么评"三大核心问题。
正文
该项目系统梳理了面向大语言模型和AI智能体的各类评测基准,涵盖工具使用、推理能力、代码生成、多模态理解等多个维度,为AGI研究提供一站式资源索引。
章节 01
该项目系统梳理了面向大语言模型(LLM)和AI智能体的各类评测基准,涵盖工具使用、推理能力、代码生成、多模态理解、智能体交互等多个维度,收录超过60个权威基准,为AGI研究者提供一站式资源索引,回答"评什么、在哪评、怎么评"三大核心问题。
章节 02
在LLM技术飞速迭代的今天,科学全面评估模型真实能力成为紧迫课题。zhangxjohn维护的LLM-Agent-Benchmark-List项目应运而生,系统性收集整理60+权威评测基准,覆盖从基础能力到高阶智能的完整维度,核心定位是解决"评什么、在哪评、怎么评"三大问题,为AGI研究者提供清晰路线图,避免重复造轮子。
章节 03
LLM评测方法论正经历深刻变革:1. 从静态到动态:如LiveBench用动态更新数据避免数据污染,NPHardEval通过算法生成无穷新题;2. 从单任务到多轮交互:现代智能体评测强调多轮上下文理解与策略调整,AgentBoard提供回合级分析;3. 从结果导向到过程评估:T-Eval逐步评估工具使用各环节,JudgeBench专门评测评判能力。
章节 04
项目覆盖多维度评测基准:\n- 工具使用:API-Bank(阿里,综合工具增强LLM评测)、ToolLLM(16000+真实API测试)、T-Eval(逐步评估工具使用环节);\n- 推理规划:NPHardEval(NP难问题测推理深度)、PlanBench(多步规划)、AgentBench(清华综合智能体评测);\n- 代码能力:HumanEval/MBPP(基础代码生成)、SWE-bench(真实GitHub Issue修复)、CRUXEval(代码推理理解执行);\n- 多模态/多语言:MME(腾讯多模态感知认知)、M3Exam(多语言多模态考试)、AlignBench(中文对齐能力);\n- 智能体交互:WebArena(网页环境任务)、OSWorld(操作系统任务)、MAgIC(多智能体协作)。
章节 05
该项目为AGI研究提供不可替代的参考:帮助研究者快速定位适合的评测工具,理解当前模型能力边界与薄弱环节,追踪2023-2026年前沿趋势,避免重复建设。它如同AGI探索的全景地图,标注已知评测疆域,是模型开发者、应用方、研究者的坚实起点。
章节 06
研究者可通过该项目:1. 快速找到对应研究方向的评测基准,无需盲目搜索;2. 对比不同基准设计思路与结果,清晰认识模型能力边界;3. 持续关注项目更新,把握领域发展脉络;4. 参考现有基准设计,避免重复造轮子,集中精力于创新维度。