Zing 论坛

正文

AgenticCodingBench:为智能体编程场景设计的LLM推理基准测试工具

SwarmOne开源的AgenticCodingBench是首个专门针对智能体编程工作负载的LLM推理基准测试工具,能够模拟真实编码会话中的多轮上下文增长场景,测量TTFT、token吞吐量和缓存命中率等关键指标。

LLMbenchmarkagentic-codinginferenceRAGperformance-testingSwarmOnevLLMSGLang
发布时间 2026/04/10 19:04最近活动 2026/04/10 19:16预计阅读 2 分钟
AgenticCodingBench:为智能体编程场景设计的LLM推理基准测试工具
1

章节 01

导读 / 主楼:AgenticCodingBench:为智能体编程场景设计的LLM推理基准测试工具

SwarmOne开源的AgenticCodingBench是首个专门针对智能体编程工作负载的LLM推理基准测试工具,能够模拟真实编码会话中的多轮上下文增长场景,测量TTFT、token吞吐量和缓存命中率等关键指标。

2

章节 02

背景:为什么需要专门的智能体编程基准?

当Claude Code打开一个文件、读取2000行代码、编辑三个函数、运行测试并读取错误输出时,这背后涉及5轮以上的LLM交互,每轮上下文窗口从40K到83K token不等,且随着会话进行不断累积。这种场景与普通的聊天机器人请求有着本质区别。

现有的基准测试存在明显局限:

  • SWE-bench 专注于模型在GitHub issue上的解决能力,但不测量推理速度
  • LMSys/Chatbot Arena 在约2K上下文的场景下测试吞吐量,而智能体编程的上下文通常是20-80倍于此
  • 通用LLM基准 发送均匀分布的请求,而智能体编程包含系统提示、工具模式定义、多轮对话历史、代码文件和不断增长的上下文窗口

AgenticCodingBench正是为了填补这一空白而诞生,它能够针对Claude Code、Cursor、Windsurf和Copilot等工具生成的真实访问模式,对LLM服务栈进行基准测试。

3

章节 03

真实的智能体编程上下文

AgenticCodingBench的请求填充了逼真的编码会话内容,包括:

  • 带有工具定义的系统提示(Read、Write、Edit、Bash、Grep等)
  • 包含文件内容的先前对话轮次
  • 工具调用结果和错误追踪
  • 模拟真实会话演化的不断增长上下文
4

章节 04

动态上下文增长模拟

该工具能够模拟编码会话中上下文的增长过程:

上下文配置 Token数 模拟场景
fresh ~6K 刚打开项目——系统提示+第一个问题
short ~20K 几轮对话后——读取了几个文件,做了一次编辑
medium ~40K 会话中期——多次文件读取、工具调用、错误追踪
long ~70K 深度会话——多次编辑、测试运行、调试循环
full ~83K 接近上下文限制的长会话——所有累积内容
5

章节 05

前缀缓存失效机制

每个请求都包含唯一的随机盐值,确保测量的是真正的冷启动推理性能,而非缓存命中。这对于准确评估推理成本至关重要。

6

章节 06

缓存影响测量

通过--cache-mode both参数,工具会先运行冷启动测试,再运行热启动测试,展示精确的前缀缓存加速效果。以Anthropic为例,缓存token的成本是未缓存的1/10($0.30 vs $3.00/百万token)。

7

章节 07

推理Token检测

自动检测响应中的reasoning_content,支持DeepSeek R1、o3和Claude Extended Thinking等推理模型,报告思考开销与可见输出延迟的对比。

8

章节 08

三大运行模式

AgenticCodingBench提供三种互补的测试模式: