正文

ClawPerf：专为Agent系统设计的LLM推理性能压测工具

一款面向多轮长上下文场景的生产级压测工具，支持模拟真实Agent工作负载，测量TTFT、TPOT、前缀缓存命中率等关键指标，兼容vLLM、SGLang和MindIE后端。

LLM推理性能压测Agent系统vLLMSGLangMindIE前缀缓存TTFTTPOT多轮对话

发布时间 2026/06/03 11:45最近活动 2026/06/03 11:49预计阅读 3 分钟

章节 01

导读 / 主楼：ClawPerf：专为Agent系统设计的LLM推理性能压测工具

一款面向多轮长上下文场景的生产级压测工具，支持模拟真实Agent工作负载，测量TTFT、TPOT、前缀缓存命中率等关键指标，兼容vLLM、SGLang和MindIE后端。

章节 02

原作者与来源

原作者/维护者：Potterluo
来源平台：GitHub
原始标题：ClawPerf
原始链接：https://github.com/Potterluo/ClawPerf
发布时间：2026年6月3日

章节 03

为什么Agent系统需要专门的压测工具？

现有的LLM推理基准测试大多关注单次请求的吞吐量和延迟，但真实的Agent系统（如OpenClaw）运行方式截然不同：

多轮对话是常态。Agent不是一问一答就结束了，而是维护着持续的对话状态：系统提示词、用户专属上下文、不断累积的历史记录。每一轮请求都要重新发送完整的累积上下文，导致提示词长度呈指数级增长。

单次请求测试的盲区：

前缀缓存效果无法测量：KV块缓存是否在多轮间真正复用？单次请求根本无法验证这一点
上下文压缩行为未知：当上下文达到窗口上限时，系统如何优雅地处理截断？是平稳恢复还是陷入溢出螺旋？
延迟退化趋势隐匿：从25K到200K tokens，TTFT（首Token延迟）和TPOT（每Token生成时间）如何变化？逐轮指标才能揭示这一演进过程
并发压力下的缓存冲突：多个用户独立对话会产生混合的前缀缓存状态——有些共享系统前缀，有些在用户专属路径上分叉

章节 04

ClawPerf的核心设计理念

ClawPerf基于ModelScope的EvalScope性能测试框架构建，但针对Agent场景进行了深度定制。它的设计哲学很简单：模拟真实的Agent工作负载，而非人工的相同请求洪流。

章节 05

上下文模型：四层结构

每个模拟用户维护独立的对话状态，采用四层上下文结构：

[System Prefix] [User Prefix] [History] [Current Input]

当上下文达到--max-context-tokens限制时，触发追加模式压缩：

首先检查基础上下文（系统前缀+用户前缀+输入，不含历史）是否已超限，防止无限压缩循环
若未超限，清空历史记录，用户前缀按配置增量增长
用新的随机内容填充扩展后的用户前缀

这种设计模拟了真实LLM服务系统在前缀缓存支持下的上下文溢出处理机制。

章节 06

用户到达调度：模拟真实流量

用户不会同时涌入，而是遵循特定的到达模式：

burst（突发）：所有用户立即启动
steady:2（稳态）：每2秒到达一个新用户
poisson:0.5（泊松）：按泊松过程随机到达，速率参数为0.5

这种调度方式更贴近生产环境的流量特征。

章节 07

多轮上下文模型

系统前缀 + 用户前缀 + 历史记录 + 当前输入的四层架构，真实还原Agent系统的提示词构造逻辑。

章节 08

系统指标轮询

内置Prometheus端点支持，可实时采集vLLM、SGLang、MindIE等后端的运行时指标，实现压测与监控的联动。

ClawPerf：专为Agent系统设计的LLM推理性能压测工具

导读 / 主楼：ClawPerf：专为Agent系统设计的LLM推理性能压测工具

原作者与来源

为什么Agent系统需要专门的压测工具？

ClawPerf的核心设计理念

上下文模型：四层结构

用户到达调度：模拟真实流量

多轮上下文模型

系统指标轮询

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

从零开始搭建AWS生成式AI应用：EC2+Bedrock实战教程