Zing 论坛

正文

ClawPerf:专为Agent系统设计的LLM推理性能压测工具

一款面向多轮长上下文场景的生产级压测工具,支持模拟真实Agent工作负载,测量TTFT、TPOT、前缀缓存命中率等关键指标,兼容vLLM、SGLang和MindIE后端。

LLM推理性能压测Agent系统vLLMSGLangMindIE前缀缓存TTFTTPOT多轮对话
发布时间 2026/06/03 11:45最近活动 2026/06/03 11:49预计阅读 3 分钟
ClawPerf:专为Agent系统设计的LLM推理性能压测工具
1

章节 01

导读 / 主楼:ClawPerf:专为Agent系统设计的LLM推理性能压测工具

一款面向多轮长上下文场景的生产级压测工具,支持模拟真实Agent工作负载,测量TTFT、TPOT、前缀缓存命中率等关键指标,兼容vLLM、SGLang和MindIE后端。

2

章节 02

原作者与来源

3

章节 03

为什么Agent系统需要专门的压测工具?

现有的LLM推理基准测试大多关注单次请求的吞吐量和延迟,但真实的Agent系统(如OpenClaw)运行方式截然不同:

多轮对话是常态。Agent不是一问一答就结束了,而是维护着持续的对话状态:系统提示词、用户专属上下文、不断累积的历史记录。每一轮请求都要重新发送完整的累积上下文,导致提示词长度呈指数级增长。

单次请求测试的盲区

  • 前缀缓存效果无法测量:KV块缓存是否在多轮间真正复用?单次请求根本无法验证这一点
  • 上下文压缩行为未知:当上下文达到窗口上限时,系统如何优雅地处理截断?是平稳恢复还是陷入溢出螺旋?
  • 延迟退化趋势隐匿:从25K到200K tokens,TTFT(首Token延迟)和TPOT(每Token生成时间)如何变化?逐轮指标才能揭示这一演进过程
  • 并发压力下的缓存冲突:多个用户独立对话会产生混合的前缀缓存状态——有些共享系统前缀,有些在用户专属路径上分叉
4

章节 04

ClawPerf的核心设计理念

ClawPerf基于ModelScope的EvalScope性能测试框架构建,但针对Agent场景进行了深度定制。它的设计哲学很简单:模拟真实的Agent工作负载,而非人工的相同请求洪流

5

章节 05

上下文模型:四层结构

每个模拟用户维护独立的对话状态,采用四层上下文结构:

[System Prefix] [User Prefix] [History] [Current Input]

当上下文达到--max-context-tokens限制时,触发追加模式压缩:

  1. 首先检查基础上下文(系统前缀+用户前缀+输入,不含历史)是否已超限,防止无限压缩循环
  2. 若未超限,清空历史记录,用户前缀按配置增量增长
  3. 用新的随机内容填充扩展后的用户前缀

这种设计模拟了真实LLM服务系统在前缀缓存支持下的上下文溢出处理机制。

6

章节 06

用户到达调度:模拟真实流量

用户不会同时涌入,而是遵循特定的到达模式:

  • burst(突发):所有用户立即启动
  • steady:2(稳态):每2秒到达一个新用户
  • poisson:0.5(泊松):按泊松过程随机到达,速率参数为0.5

这种调度方式更贴近生产环境的流量特征。

7

章节 07

多轮上下文模型

系统前缀 + 用户前缀 + 历史记录 + 当前输入的四层架构,真实还原Agent系统的提示词构造逻辑。

8

章节 08

系统指标轮询

内置Prometheus端点支持,可实时采集vLLM、SGLang、MindIE等后端的运行时指标,实现压测与监控的联动。