正文

LLMTraceFX：GPU级LLM推理性能分析工具，带AI智能诊断

一个开源的GPU级LLM推理分析器，提供token级别的性能分析和AI驱动的瓶颈诊断，支持火焰图、热力图等可视化，可部署到云端GPU。

LLMGPUperformanceprofilinginferenceoptimizationvisualizationModalClaude

发布时间 2026/04/22 11:41最近活动 2026/04/22 12:43预计阅读 15 分钟

章节 01

导读 / 主楼：LLMTraceFX：GPU级LLM推理性能分析工具，带AI智能诊断

一个开源的GPU级LLM推理分析器，提供token级别的性能分析和AI驱动的瓶颈诊断，支持火焰图、热力图等可视化，可部署到云端GPU。

章节 02

背景

LLMTraceFX：GPU级LLM推理性能分析工具，带AI智能诊断\n\n## 为什么LLM推理性能分析如此重要\n\n大型语言模型的推理成本正在迅速成为AI应用的主要开销。无论是自建模型服务还是优化云端部署，理解GPU层面的性能瓶颈至关重要。然而，现有的分析工具往往存在以下问题：\n\n- 过于底层：Nsight、PyTorch Profiler等工具提供的是kernel级别的原始数据，需要专业知识才能解读\n- 过于高层：应用层面的监控只能看到端到端延迟，无法定位具体的性能问题\n- 缺乏智能诊断：即使获得了性能数据，如何理解这些数据并找到优化方向仍需要丰富的经验\n\nLLMTraceFX试图填补这一空白：提供token级别的细粒度分析，同时结合AI能力自动诊断性能问题并给出优化建议。\n\n## 核心功能概览\n\nLLMTraceFX是一个开源的GPU级LLM推理分析器，主要特性包括：\n\n- Token级性能追踪：精确到每个token的生成过程，分析embedding、attention、matmul等每个操作的耗时\n- GPU瓶颈检测：自动识别内存带宽瓶颈、kernel启动延迟、SM占用率低等问题\n- AI智能解释：集成Claude API，为性能数据提供自然语言解释和优化建议\n- 丰富的可视化：火焰图、热力图、雷达图、瓶颈分布图等多种图表\n- 云端部署：支持部署到Modal.com，利用云端GPU进行加速分析\n\n## 技术架构与工作流程\n\n### 1. 追踪数据采集\n\nLLMTraceFX支持多种输入格式，包括：\n\n- vLLM追踪日志：直接从流行的vLLM推理引擎导入\n- 通用JSON格式：自定义追踪数据，包含token ID、文本、操作列表和时间戳\n- 示例数据生成器：内置工具可生成模拟的memory-bound或optimized场景数据\n\n追踪数据的核心结构展示了每个token的完整生命周期：\n\n`json\n{\n \"tokens\": [\n {\n \"id\": 0,\n \"text\": \"Hello\",\n \"operations\": [\n {\"name\": \"embedding\", \"start_time\": 0, \"duration\": 2.1},\n {\"name\": \"rmsnorm\", \"start_time\": 2.1, \"duration\": 1.8},\n {\"name\": \"matmul\", \"start_time\": 3.9, \"duration\": 15.3}\n ]\n }\n ]\n}\n`\n\n### 2. GPU性能建模\n\n工具内置了多种GPU的详细规格模型：\n\n| GPU型号 | VRAM | 内存带宽 | 典型应用场景 |\n|---------|------|----------|--------------|\n| A10G | 24GB | 600 GB/s | 中端推理、开发测试 |\n| A100 | 80GB | 1935 GB/s | 大规模生产部署 |\n| H100 | 80GB | 3350 GB/s | 高性能训练与推理 |\n\n基于这些硬件规格，LLMTraceFX可以计算出理论性能上限，并与实际测量值对比，识别性能差距。\n\n### 3. 瓶颈检测算法\n\n系统会分析多种GPU指标来识别性能问题：\n\n内存相关指标：\n- Stall Percentage（停滞百分比）：高值表示内存带宽瓶颈\n- Cache Hit Rate（缓存命中率）：低值意味着内存访问模式不佳\n\n计算相关指标：\n- SM Occupancy（流多处理器占用率）：反映GPU核心利用率\n- Compute Utilization（计算利用率）：衡量实际计算吞吐量\n\n调度相关指标：\n- Launch Delay（启动延迟）：kernel排队等待执行的时间\n\n### 4. AI驱动的诊断报告\n\n当启用Claude集成时，系统会为每个检测到的瓶颈生成详细的诊断报告：\n\n\n🔍 Token 42 Analysis\n\nSummary: MatMul operation shows 33% memory stall due to poor coalescing\n\nTechnical Details: The matrix multiplication kernel is experiencing\nsignificant memory bandwidth limitations due to non-coalesced memory access\npatterns. This is causing the GPU to wait for memory operations.\n\nOptimization Recommendations:\n• Consider transposing matrices for better memory layout\n• Implement tiling strategies to improve cache utilization\n• Use tensor cores if available for better compute efficiency\n\nSeverity: HIGH\n\n\n这种AI辅助的诊断大大降低了性能优化的门槛，即使不熟悉GPU底层细节的开发者也能获得可执行的优化建议。\n\n## 可视化与交互界面\n\n### 火焰图（Flame Graph）\n\n展示token生成过程中各操作的耗时分布，直观显示哪些操作占用了大部分时间。一眼就能看出是matmul主导了延迟，还是attention计算成为瓶颈。\n\n### 热力图（Heatmap）\n\n以矩阵形式展示操作持续时间模式，帮助识别性能异常的时间点或特定的慢操作组合。\n\n### 瓶颈分布图\n\n饼图或柱状图展示不同类型性能问题的占比，例如内存带宽瓶颈vs计算瓶颈vs调度开销。\n\n### 性能趋势图\n\n折线图显示延迟和性能分数随token序列的变化，可以观察到长上下文场景下的性能衰减模式。\n\n### 雷达图\n\n多维度展示GPU指标，便于快速评估整体健康状况。\n\n### Web仪表板\n\n除了静态图表，LLMTraceFX还提供了一个交互式的Web仪表板，支持：\n- 上传追踪文件进行分析\n- 实时查看性能报告\n- 按token查看详细分解\n- 导出JSON数据用于进一步处理\n\n## 部署选项\n\n### 本地运行\n\n使用Python和uv/pip即可本地运行：\n\n`bash\ngit clone https://github.com/Siddhant-K-code/LLMTraceFX.git\ncd LLMTraceFX\nuv sync\nuv run llmtracefx --trace your_trace.json --gpu-type A10G\n`\n\n本地模式适合开发调试和敏感数据处理，所有分析都在本地完成。\n\n### 云端部署（Modal.com）\n\n对于需要更强计算能力或希望作为服务提供的场景，可以部署到Modal.com：\n\n`bash\n# 设置Claude API密钥\nuv run modal secret create claude-api-key CLAUDE_API_KEY=your_api_key\n\n# 部署应用\nuv run modal deploy llmtracefx/modal_app.py\n`\n\n部署后获得一个Web端点，可以通过API调用：\n\n`bash\ncurl -X POST \"https://siddhant-k-code--llmtracefx-web-app.modal.run/analyze-trace\" \\\-H \"Content-Type: application/json\" \\\-d '{\"trace_data\": {...}, \"gpu_type\": \"A10G\", \"enable_claude\": true}'\n`\n\n云端部署的优势在于可以利用Modal的GPU资源进行更复杂的分析，同时提供随时可用的Web服务。\n\n## 典型应用场景\n\n### 场景一：模型选型决策\n\n在决定使用哪个模型之前，先用LLMTraceFX分析候选模型在目标GPU上的性能表现。对比不同batch size、不同序列长度下的吞吐量和延迟，做出数据驱动的选型决策。\n\n### 场景二：生产环境故障排查\n\n当线上服务出现性能下降时，捕获追踪数据并用LLMTraceFX分析。快速定位是内存带宽饱和、kernel融合不足，还是上下文长度过长导致的KV cache压力。\n\n### 场景三：优化效果验证\n\n实施优化措施（如使用FlashAttention、调整batch size、启用CUDA graph）前后，用LLMTraceFX进行对比分析，量化验证优化效果。\n\n### 场景四：教育与研究\n\n对于学习GPU编程或LLM推理系统的学生和研究人员，LLMTraceFX提供了一个直观的学习工具。通过可视化和AI解释，理解复杂的GPU性能概念。\n\n## 局限与未来方向\n\n当前版本的一些限制：\n- 支持的GPU型号有限（A10G、A100、H100），需要手动添加新型号\n- AI诊断依赖Claude API，需要额外的API密钥和费用\n- 追踪数据格式需要预处理，不能直接接入生产环境的vLLM实例\n\n潜在的未来改进：\n- 自动追踪采集：直接从vLLM或TGI等推理引擎实时采集数据\n- 更多GPU支持：添加RTX 4090/5090、L40S等消费级和专业级GPU模型\n- 本地AI诊断：使用小型本地模型替代Claude API，降低成本和延迟\n- 历史趋势分析：保存多次分析结果，展示性能随时间的变化趋势\n\n## 总结\n\nLLMTraceFX代表了一种将底层系统分析与AI智能诊断相结合的新方向。它既满足了专业工程师对细粒度性能数据的需求，又通过AI解释降低了使用门槛，让更多开发者能够理解和优化LLM推理性能。在LLM部署成本日益受到关注的背景下，这类工具的价值将愈发凸显。

章节 03

补充观点 1

LLMTraceFX：GPU级LLM推理性能分析工具，带AI智能诊断\n\n为什么LLM推理性能分析如此重要\n\n大型语言模型的推理成本正在迅速成为AI应用的主要开销。无论是自建模型服务还是优化云端部署，理解GPU层面的性能瓶颈至关重要。然而，现有的分析工具往往存在以下问题：\n\n- 过于底层：Nsight、PyTorch Profiler等工具提供的是kernel级别的原始数据，需要专业知识才能解读\n- 过于高层：应用层面的监控只能看到端到端延迟，无法定位具体的性能问题\n- 缺乏智能诊断：即使获得了性能数据，如何理解这些数据并找到优化方向仍需要丰富的经验\n\nLLMTraceFX试图填补这一空白：提供token级别的细粒度分析，同时结合AI能力自动诊断性能问题并给出优化建议。\n\n核心功能概览\n\nLLMTraceFX是一个开源的GPU级LLM推理分析器，主要特性包括：\n\n- Token级性能追踪：精确到每个token的生成过程，分析embedding、attention、matmul等每个操作的耗时\n- GPU瓶颈检测：自动识别内存带宽瓶颈、kernel启动延迟、SM占用率低等问题\n- AI智能解释：集成Claude API，为性能数据提供自然语言解释和优化建议\n- 丰富的可视化：火焰图、热力图、雷达图、瓶颈分布图等多种图表\n- 云端部署：支持部署到Modal.com，利用云端GPU进行加速分析\n\n技术架构与工作流程\n\n1. 追踪数据采集\n\nLLMTraceFX支持多种输入格式，包括：\n\n- vLLM追踪日志：直接从流行的vLLM推理引擎导入\n- 通用JSON格式：自定义追踪数据，包含token ID、文本、操作列表和时间戳\n- 示例数据生成器：内置工具可生成模拟的memory-bound或optimized场景数据\n\n追踪数据的核心结构展示了每个token的完整生命周期：\n\njson\n{\n \"tokens\": [\n {\n \"id\": 0,\n \"text\": \"Hello\",\n \"operations\": [\n {\"name\": \"embedding\", \"start_time\": 0, \"duration\": 2.1},\n {\"name\": \"rmsnorm\", \"start_time\": 2.1, \"duration\": 1.8},\n {\"name\": \"matmul\", \"start_time\": 3.9, \"duration\": 15.3}\n ]\n }\n ]\n}\n\n\n2. GPU性能建模\n\n工具内置了多种GPU的详细规格模型：\n\n| GPU型号 | VRAM | 内存带宽 | 典型应用场景 |\n|---------|------|----------|--------------|\n| A10G | 24GB | 600 GB/s | 中端推理、开发测试 |\n| A100 | 80GB | 1935 GB/s | 大规模生产部署 |\n| H100 | 80GB | 3350 GB/s | 高性能训练与推理 |\n\n基于这些硬件规格，LLMTraceFX可以计算出理论性能上限，并与实际测量值对比，识别性能差距。\n\n3. 瓶颈检测算法\n\n系统会分析多种GPU指标来识别性能问题：\n\n内存相关指标：\n- Stall Percentage（停滞百分比）：高值表示内存带宽瓶颈\n- Cache Hit Rate（缓存命中率）：低值意味着内存访问模式不佳\n\n计算相关指标：\n- SM Occupancy（流多处理器占用率）：反映GPU核心利用率\n- Compute Utilization（计算利用率）：衡量实际计算吞吐量\n\n调度相关指标：\n- Launch Delay（启动延迟）：kernel排队等待执行的时间\n\n4. AI驱动的诊断报告\n\n当启用Claude集成时，系统会为每个检测到的瓶颈生成详细的诊断报告：\n\n\n🔍 Token 42 Analysis\n\n**Summary:** MatMul operation shows 33% memory stall due to poor coalescing\n\n**Technical Details:** The matrix multiplication kernel is experiencing\nsignificant memory bandwidth limitations due to non-coalesced memory access\npatterns. This is causing the GPU to wait for memory operations.\n\n**Optimization Recommendations:**\n• Consider transposing matrices for better memory layout\n• Implement tiling strategies to improve cache utilization\n• Use tensor cores if available for better compute efficiency\n\n**Severity:** HIGH\n\n\n这种AI辅助的诊断大大降低了性能优化的门槛，即使不熟悉GPU底层细节的开发者也能获得可执行的优化建议。\n\n可视化与交互界面\n\n火焰图（Flame Graph）\n\n展示token生成过程中各操作的耗时分布，直观显示哪些操作占用了大部分时间。一眼就能看出是matmul主导了延迟，还是attention计算成为瓶颈。\n\n热力图（Heatmap）\n\n以矩阵形式展示操作持续时间模式，帮助识别性能异常的时间点或特定的慢操作组合。\n\n瓶颈分布图\n\n饼图或柱状图展示不同类型性能问题的占比，例如内存带宽瓶颈vs计算瓶颈vs调度开销。\n\n性能趋势图\n\n折线图显示延迟和性能分数随token序列的变化，可以观察到长上下文场景下的性能衰减模式。\n\n雷达图\n\n多维度展示GPU指标，便于快速评估整体健康状况。\n\nWeb仪表板\n\n除了静态图表，LLMTraceFX还提供了一个交互式的Web仪表板，支持：\n- 上传追踪文件进行分析\n- 实时查看性能报告\n- 按token查看详细分解\n- 导出JSON数据用于进一步处理\n\n部署选项\n\n本地运行\n\n使用Python和uv/pip即可本地运行：\n\nbash\ngit clone https://github.com/Siddhant-K-code/LLMTraceFX.git\ncd LLMTraceFX\nuv sync\nuv run llmtracefx --trace your_trace.json --gpu-type A10G\n\n\n本地模式适合开发调试和敏感数据处理，所有分析都在本地完成。\n\n云端部署（Modal.com）\n\n对于需要更强计算能力或希望作为服务提供的场景，可以部署到Modal.com：\n\nbash\n设置Claude API密钥\nuv run modal secret create claude-api-key CLAUDE_API_KEY=your_api_key\n\n部署应用\nuv run modal deploy llmtracefx/modal_app.py\n\n\n部署后获得一个Web端点，可以通过API调用：\n\nbash\ncurl -X POST \"https://siddhant-k-code--llmtracefx-web-app.modal.run/analyze-trace\" \\\-H \"Content-Type: application/json\" \\\-d '{\"trace_data\": {...}, \"gpu_type\": \"A10G\", \"enable_claude\": true}'\n\n\n云端部署的优势在于可以利用Modal的GPU资源进行更复杂的分析，同时提供随时可用的Web服务。\n\n典型应用场景\n\n场景一：模型选型决策\n\n在决定使用哪个模型之前，先用LLMTraceFX分析候选模型在目标GPU上的性能表现。对比不同batch size、不同序列长度下的吞吐量和延迟，做出数据驱动的选型决策。\n\n场景二：生产环境故障排查\n\n当线上服务出现性能下降时，捕获追踪数据并用LLMTraceFX分析。快速定位是内存带宽饱和、kernel融合不足，还是上下文长度过长导致的KV cache压力。\n\n场景三：优化效果验证\n\n实施优化措施（如使用FlashAttention、调整batch size、启用CUDA graph）前后，用LLMTraceFX进行对比分析，量化验证优化效果。\n\n场景四：教育与研究\n\n对于学习GPU编程或LLM推理系统的学生和研究人员，LLMTraceFX提供了一个直观的学习工具。通过可视化和AI解释，理解复杂的GPU性能概念。\n\n局限与未来方向\n\n当前版本的一些限制：\n- 支持的GPU型号有限（A10G、A100、H100），需要手动添加新型号\n- AI诊断依赖Claude API，需要额外的API密钥和费用\n- 追踪数据格式需要预处理，不能直接接入生产环境的vLLM实例\n\n潜在的未来改进：\n- 自动追踪采集：直接从vLLM或TGI等推理引擎实时采集数据\n- 更多GPU支持：添加RTX 4090/5090、L40S等消费级和专业级GPU模型\n- 本地AI诊断：使用小型本地模型替代Claude API，降低成本和延迟\n- 历史趋势分析：保存多次分析结果，展示性能随时间的变化趋势\n\n总结\n\nLLMTraceFX代表了一种将底层系统分析与AI智能诊断相结合的新方向。它既满足了专业工程师对细粒度性能数据的需求，又通过AI解释降低了使用门槛，让更多开发者能够理解和优化LLM推理性能。在LLM部署成本日益受到关注的背景下，这类工具的价值将愈发凸显。

LLMTraceFX：GPU级LLM推理性能分析工具，带AI智能诊断

导读 / 主楼：LLMTraceFX：GPU级LLM推理性能分析工具，带AI智能诊断

背景

补充观点 1

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

从零开始搭建AWS生成式AI应用：EC2+Bedrock实战教程