正文

llmtest-perf：LLM推理系统的生产级性能验证框架

llmtest-perf是一个专为LLM推理系统设计的性能验证和回归测试框架，采用声明式YAML配置，支持基线与候选版本的对比测试，为CI/CD流水线提供基于SLO的发布门禁能力。

llmtest-perfLLM推理性能测试回归测试CI/CDSLO延迟测试吞吐量TTFTPython

发布时间 2026/03/30 11:09最近活动 2026/03/30 11:23预计阅读 4 分钟

章节 01

导读 / 主楼：llmtest-perf：LLM推理系统的生产级性能验证框架

章节 02

背景：LLM推理性能测试的挑战

随着大型语言模型在各类应用中的广泛部署，推理性能已成为影响用户体验和运营成本的关键因素。然而，对LLM推理系统进行有效的性能测试并非易事，工程团队常常面临以下挑战：

版本升级风险：模型版本更新后，延迟是否回归？吞吐量是否下降？
基础设施变更：更换推理框架或硬件配置后，首token时间（TTFT）和生成速度如何变化？
混合负载模拟：真实场景下，系统在面对长短不一、复杂度各异的请求时表现如何？
发布决策依据：基于什么标准判断一次部署是否安全？

传统的通用压测工具（如k6、Locust）虽然能够模拟并发请求，但缺乏对LLM特有指标（如TTFT、token生成速率）的原生支持。而简单的脚本方案又难以实现系统化的回归检测和CI集成。业界迫切需要一款专为LLM推理场景设计的性能验证工具。

章节 03

llmtest-perf的设计理念

llmtest-perf的定位十分明确：这不是一个通用基准测试工具，而是一个面向生产环境的发布门禁和回归测试框架。其设计目标是为CI/CD流水线和生产部署验证提供可靠的数据支撑。

章节 04

核心特性一览

工作负载感知测试：支持通过加权提示集定义真实的混合工作负载
CI友好：基于SLO和回归阈值的通过/失败判定
对比优先：内置基线vs候选版本的对比模式
开发者友好：声明式YAML配置，丰富的控制台输出
实用指标：P50/P90/P95/P99延迟、TTFT、吞吐量、错误率
异步引擎：基于httpx的高性能异步工作负载运行器
多格式输出：控制台、JSON、自包含HTML报告
可扩展架构：清晰的提供商抽象（优先支持OpenAI兼容接口）

章节 05

配置详解：声明式测试定义

llmtest-perf采用YAML作为配置语言，使得测试定义清晰可读且易于版本控制。一个完整的配置包含以下核心部分：

章节 06

目标定义（Targets）

targets:
  baseline:
    base_url: "http://localhost:8000/v1"
    model: "gpt-3.5-turbo"
    api_key_env: "OPENAI_API_KEY"
  
  candidate:
    base_url: "http://localhost:8001/v1"
    model: "gpt-4-turbo"
    api_key_env: "OPENAI_API_KEY"

这种设计支持多种对比场景：

模型版本对比：同一端点上的不同模型版本
基础设施对比：相同模型在不同集群/硬件上的性能
配置优化对比：不同推理参数（如量化策略、批处理大小）的效果

章节 07

工作负载配置（Workload）

workload:
  duration_seconds: 60
  max_concurrency: 32
  ramp_up_seconds: 10
  stream: true
  
  prompt_sets:
    - name: short_qa
      weight: 40
      prompts:
        - "法国的首都是哪里？"
        - "简要解释TCP与UDP的区别。"
    
    - name: long_context
      weight: 30
      prompts:
        - "总结以下架构文档..."
    
    - name: structured_output
      weight: 30
      prompts:
        - "为以下文本返回JSON格式的摘要和情感分析。"

工作负载配置的关键设计：

渐进式加压：通过ramp_up_seconds避免冷启动偏差
流式支持：启用stream: true以捕获TTFT指标
加权提示集：模拟真实流量分布，不同复杂度请求按比例混合

章节 08

SLO与回归阈值

slos:
  p95_latency_ms: 2500
  ttft_ms: 1200
  output_tokens_per_sec: 40
  error_rate_percent: 1.0

comparison:
  fail_on_regression: true
  max_p95_latency_regression_percent: 10
  max_ttft_regression_percent: 10
  max_output_tokens_per_sec_drop_percent: 10
  max_error_rate_increase_percent: 1

这种双层阈值机制既支持绝对SLO合规检查，也支持相对基线的回归检测，为发布决策提供了灵活的判断依据。