章节 01
导读 / 主楼:ClawPerf:专为Agent系统设计的LLM推理性能压测工具
一款面向多轮长上下文场景的生产级压测工具,支持模拟真实Agent工作负载,测量TTFT、TPOT、前缀缓存命中率等关键指标,兼容vLLM、SGLang和MindIE后端。
正文
一款面向多轮长上下文场景的生产级压测工具,支持模拟真实Agent工作负载,测量TTFT、TPOT、前缀缓存命中率等关键指标,兼容vLLM、SGLang和MindIE后端。
章节 01
一款面向多轮长上下文场景的生产级压测工具,支持模拟真实Agent工作负载,测量TTFT、TPOT、前缀缓存命中率等关键指标,兼容vLLM、SGLang和MindIE后端。
章节 02
章节 03
现有的LLM推理基准测试大多关注单次请求的吞吐量和延迟,但真实的Agent系统(如OpenClaw)运行方式截然不同:
多轮对话是常态。Agent不是一问一答就结束了,而是维护着持续的对话状态:系统提示词、用户专属上下文、不断累积的历史记录。每一轮请求都要重新发送完整的累积上下文,导致提示词长度呈指数级增长。
单次请求测试的盲区:
章节 04
ClawPerf基于ModelScope的EvalScope性能测试框架构建,但针对Agent场景进行了深度定制。它的设计哲学很简单:模拟真实的Agent工作负载,而非人工的相同请求洪流。
章节 05
每个模拟用户维护独立的对话状态,采用四层上下文结构:
[System Prefix] [User Prefix] [History] [Current Input]
当上下文达到--max-context-tokens限制时,触发追加模式压缩:
这种设计模拟了真实LLM服务系统在前缀缓存支持下的上下文溢出处理机制。
章节 06
用户不会同时涌入,而是遵循特定的到达模式:
这种调度方式更贴近生产环境的流量特征。
章节 07
系统前缀 + 用户前缀 + 历史记录 + 当前输入的四层架构,真实还原Agent系统的提示词构造逻辑。
章节 08
内置Prometheus端点支持,可实时采集vLLM、SGLang、MindIE等后端的运行时指标,实现压测与监控的联动。