章节 01
导读 / 主楼:AgenticCodingBench:为智能体编程场景设计的LLM推理基准测试工具
SwarmOne开源的AgenticCodingBench是首个专门针对智能体编程工作负载的LLM推理基准测试工具,能够模拟真实编码会话中的多轮上下文增长场景,测量TTFT、token吞吐量和缓存命中率等关键指标。
正文
SwarmOne开源的AgenticCodingBench是首个专门针对智能体编程工作负载的LLM推理基准测试工具,能够模拟真实编码会话中的多轮上下文增长场景,测量TTFT、token吞吐量和缓存命中率等关键指标。
章节 01
SwarmOne开源的AgenticCodingBench是首个专门针对智能体编程工作负载的LLM推理基准测试工具,能够模拟真实编码会话中的多轮上下文增长场景,测量TTFT、token吞吐量和缓存命中率等关键指标。
章节 02
当Claude Code打开一个文件、读取2000行代码、编辑三个函数、运行测试并读取错误输出时,这背后涉及5轮以上的LLM交互,每轮上下文窗口从40K到83K token不等,且随着会话进行不断累积。这种场景与普通的聊天机器人请求有着本质区别。
现有的基准测试存在明显局限:
AgenticCodingBench正是为了填补这一空白而诞生,它能够针对Claude Code、Cursor、Windsurf和Copilot等工具生成的真实访问模式,对LLM服务栈进行基准测试。
章节 03
AgenticCodingBench的请求填充了逼真的编码会话内容,包括:
章节 04
该工具能够模拟编码会话中上下文的增长过程:
| 上下文配置 | Token数 | 模拟场景 |
|---|---|---|
| fresh | ~6K | 刚打开项目——系统提示+第一个问题 |
| short | ~20K | 几轮对话后——读取了几个文件,做了一次编辑 |
| medium | ~40K | 会话中期——多次文件读取、工具调用、错误追踪 |
| long | ~70K | 深度会话——多次编辑、测试运行、调试循环 |
| full | ~83K | 接近上下文限制的长会话——所有累积内容 |
章节 05
每个请求都包含唯一的随机盐值,确保测量的是真正的冷启动推理性能,而非缓存命中。这对于准确评估推理成本至关重要。
章节 06
通过--cache-mode both参数,工具会先运行冷启动测试,再运行热启动测试,展示精确的前缀缓存加速效果。以Anthropic为例,缓存token的成本是未缓存的1/10($0.30 vs $3.00/百万token)。
章节 07
自动检测响应中的reasoning_content,支持DeepSeek R1、o3和Claude Extended Thinking等推理模型,报告思考开销与可见输出延迟的对比。
章节 08
AgenticCodingBench提供三种互补的测试模式: