章节 01
导读 / 主楼:llm-cal:一款架构感知的LLM推理硬件计算器,告别参数乘精度的估算陷阱
llm-cal通过直接读取safetensors真实字节而非参数乘精度来估算模型大小,支持53种GPU和多种注意力架构,为vLLM和SGLang用户提供准确的部署规划工具。
正文
llm-cal通过直接读取safetensors真实字节而非参数乘精度来估算模型大小,支持53种GPU和多种注意力架构,为vLLM和SGLang用户提供准确的部署规划工具。
章节 01
llm-cal通过直接读取safetensors真实字节而非参数乘精度来估算模型大小,支持53种GPU和多种注意力架构,为vLLM和SGLang用户提供准确的部署规划工具。
章节 02
bash\nllm-cal deepseek-ai/DeepSeek-V4-Flash --gpu H800\n\n\n中文输出 + 更长上下文:\nbash\nllm-cal Qwen/Qwen2.5-72B-Instruct --gpu A100-80G --context-length 32768 --lang zh\n\n\n完整推导追踪(查看每个数字的计算过程):\nbash\nllm-cal mistralai/Mixtral-8x7B-v0.1 --gpu H100 --explain\n\n\nLLM 审计(可选,需要配置 API):\nbash\nexport LLM_CAL_REVIEWER_API_KEY=sk-...\nexport LLM_CAL_REVIEWER_BASE_URL=https://api.deepseek.com/v1\nexport LLM_CAL_REVIEWER_MODEL=deepseek-chat\nllm-cal deepseek-ai/DeepSeek-V3 --gpu H800 --explain --llm-review\n\n\n## 输出示例解读\n\n以 DeepSeek-V4-Flash 在 H800 上的评估为例:\n\n\n┌─ deepseek-ai/DeepSeek-V4-Flash via huggingface @ 6c858e7 ─┐\n\nArchitecture\n model_type deepseek_v4 [verified]\n attention CSA_HCA (heads=64, kv_heads=1, hd=512) [verified]\n moe 256 routed + 1 shared, top-6 [verified]\n sliding_window 128 [verified]\n\nWeights\n safetensors bytes 159.62 GB [verified]\n quantization FP4_FP8_MIXED [inferred] (tied with GPTQ_INT4, AWQ_INT4)\n\nFleet — H800\n tier GPUs concurrent @ 128K concurrent @ 1.0M\n min 4 ~14 ~1\n dev ★ 4 ~14 ~1\n prod 8 ~23 ~2\n\nPerformance — dev tier (4× H800)\n prefill latency 735 ms @ 2000 input tokens [estimated, Kaplan 2020]\n decode throughput 48 tok/s per user [estimated, Kwon SOSP 2023]\n bottleneck memory bandwidth [inferred]\n\nGenerated command\n vllm serve deepseek-ai/DeepSeek-V4-Flash \\\n --tensor-parallel-size 4 --max-model-len 1048576 \\\n --trust-remote-code --gpu-memory-utilization 0.9 \\\n --attention-backend auto\n\n\n输出不仅给出了硬件配置建议,还直接生成了可直接运行的 vLLM 启动命令。\n\n## 实际意义与应用场景\n\n对于 AI 基础设施团队,llm-cal 解决了以下痛点:\n\n1. 预算规划:在采购 GPU 前准确估算所需硬件规模\n2. 容量管理:根据预期的并发用户数选择 min/dev/prod 级别的部署配置\n3. 性能调优:识别瓶颈类型(计算、显存、带宽),针对性优化\n4. 多硬件适配:支持国产芯片的规格查询,方便本地化部署评估\n\n工具还提供了 --benchmark 命令,可以运行 8 个模型 × 33 项检查的基准测试,验证估算准确性。\n\n## 总结\n\nllm-cal 代表了 LLM 部署工具从"估算"向"测量"的演进。通过直接读取真实权重字节、识别现代架构特性、提供可信度标注,它为工程师提供了更可靠的决策依据。在混合精度量化日益普及的今天,这种诚实标注(honest-labeled)的方法论比传统的简化公式更具实用价值。章节 03
llm-cal:一款架构感知的LLM推理硬件计算器,告别参数乘精度的估算陷阱\n\n在部署大语言模型时,最头疼的问题往往不是"能不能跑",而是"需要多少卡、 latency 多少、能支持多少并发"。传统工具如 gpu_poor、llm-vram-calculator 等通常采用"参数量 × 精度"的简单公式来估算模型大小,这种方法在混合精度量化场景下会产生巨大偏差。\n\n现有工具的估算陷阱\n\n以 DeepSeek-V4-Flash 为例,它采用了 FP4+FP8 的混合精度打包方案:\n\n| 工具 | 估算大小 | 实际大小 | 偏差 |\n|------|----------|----------|------|\n| gpu_poor | 284 GB (假设纯FP8) | 160 GB | +77% |\n| llm-cal | 160 GB | 160 GB | ✓ 准确 |\n\n类似地,Qwen2.5-72B (FP16) 在 gpu_poor 中被估算为 140 GB,而实际 safetensors 文件为 145 GB。这些看似微小的差异,在规划显存预算时可能导致部署失败。\n\nllm-cal 的核心设计\n\nllm-cal 的核心创新在于直接从 HuggingFace API 读取 safetensors 字节数,而非依赖理论计算公式。它会将读取到的字节数与所有已知的量化方案进行比对,选择最佳匹配,并在存在多个可能方案时明确标注"平局"状态。\n\n架构感知能力\n\nllm-cal 支持识别多种现代注意力架构:\n\n- 传统架构:MHA (Multi-Head Attention)、GQA (Grouped Query Attention)、MQA (Multi-Query Attention)\n- 稀疏注意力:MLA (Multi-Latent Attention)、NSA (Native Sparse Attention)、CSA+HCA\n- MoE 架构:支持 active-expert 比例计算和路由策略分析\n\n引擎兼容性矩阵\n\n工具内置了 vLLM 0.6–0.19 和 SGLang 0.4–0.5 的兼容性矩阵,覆盖:\n\n- Dense 模型:Llama、Mistral、Qwen2/3、Phi、Gemma、InternLM\n- MoE 模型:Mixtral、Qwen3-MoE、DeepSeek-V3/V4、Phi-MoE\n- 滑动窗口注意力:Mistral、Qwen3-MoE\n\n输出指标与可信度标注\n\nllm-cal 的每个输出数字都带有明确的可信度标签:\n\n| 标签 | 含义 | 示例 |\n|------|------|------|\n| [verified] | 直接从 API 或文件读取 | safetensors 字节数 |\n| [inferred] | 从已验证数据单步推导 | bits/param 计算值 |\n| [estimated] | 基于公式的估算 | prefill latency |\n| [cited] | 来自论文/PR/发布说明 | vLLM ≥0.19.0 支持 CSA+HCA |\n| [unverified] | 矩阵条目,无明确证据 | SGLang day-0 支持待验证 |\n| [unknown] | 优雅降级 | 未知 model_type |\n| [llm-opinion] | 可选的 LLM 审计意见 | --llm-review 输出 |\n\n这种透明度设计让用户清楚知道每个数字的可靠程度。\n\n硬件支持范围\n\nllm-cal 支持 53 种 GPU,涵盖:\n\n- NVIDIA:B200、GB200、H100/H800/H200/H20、GH200、L40S/L40/L4、RTX 6000 Ada/4090、A100/A40/A10/A10G、V100、T4\n- AMD:MI325X、MI300X、MI250X、MI210\n- Intel Habana:Gaudi3、Gaudi2\n- 国产芯片:华为昇腾 910 系列、沐曦 MXC500/550、昆仑芯 P800/R200、壁仞 BR100/104、天数智芯 BI-V100、摩尔线程 MTT-S4000/S3000、寒武纪 MLU370-X8/590、海光 K100-AI/Z100\n\n每种 GPU 条目都标注了 spec_source(厂商页面、数据手册或已验证基准测试 URL)和双语注释。\n\n使用示例\n\n基础评估:\nbash\nllm-cal deepseek-ai/DeepSeek-V4-Flash --gpu H800\n\n\n中文输出 + 更长上下文:\nbash\nllm-cal Qwen/Qwen2.5-72B-Instruct --gpu A100-80G --context-length 32768 --lang zh\n\n\n完整推导追踪(查看每个数字的计算过程):\nbash\nllm-cal mistralai/Mixtral-8x7B-v0.1 --gpu H100 --explain\n\n\nLLM 审计(可选,需要配置 API):\nbash\nexport LLM_CAL_REVIEWER_API_KEY=sk-...\nexport LLM_CAL_REVIEWER_BASE_URL=https://api.deepseek.com/v1\nexport LLM_CAL_REVIEWER_MODEL=deepseek-chat\nllm-cal deepseek-ai/DeepSeek-V3 --gpu H800 --explain --llm-review\n\n\n输出示例解读\n\n以 DeepSeek-V4-Flash 在 H800 上的评估为例:\n\n\n┌─ deepseek-ai/DeepSeek-V4-Flash via huggingface @ 6c858e7 ─┐\n\nArchitecture\n model_type deepseek_v4 [verified]\n attention CSA_HCA (heads=64, kv_heads=1, hd=512) [verified]\n moe 256 routed + 1 shared, top-6 [verified]\n sliding_window 128 [verified]\n\nWeights\n safetensors bytes 159.62 GB [verified]\n quantization FP4_FP8_MIXED [inferred] (tied with GPTQ_INT4, AWQ_INT4)\n\nFleet — H800\n tier GPUs concurrent @ 128K concurrent @ 1.0M\n min 4 ~14 ~1\n dev ★ 4 ~14 ~1\n prod 8 ~23 ~2\n\nPerformance — dev tier (4× H800)\n prefill latency 735 ms @ 2000 input tokens [estimated, Kaplan 2020]\n decode throughput 48 tok/s per user [estimated, Kwon SOSP 2023]\n bottleneck memory bandwidth [inferred]\n\nGenerated command\n vllm serve deepseek-ai/DeepSeek-V4-Flash \\\n --tensor-parallel-size 4 --max-model-len 1048576 \\\n --trust-remote-code --gpu-memory-utilization 0.9 \\\n --attention-backend auto\n\n\n输出不仅给出了硬件配置建议,还直接生成了可直接运行的 vLLM 启动命令。\n\n实际意义与应用场景\n\n对于 AI 基础设施团队,llm-cal 解决了以下痛点:\n\n1. 预算规划:在采购 GPU 前准确估算所需硬件规模\n2. 容量管理:根据预期的并发用户数选择 min/dev/prod 级别的部署配置\n3. 性能调优:识别瓶颈类型(计算、显存、带宽),针对性优化\n4. 多硬件适配:支持国产芯片的规格查询,方便本地化部署评估\n\n工具还提供了 --benchmark 命令,可以运行 8 个模型 × 33 项检查的基准测试,验证估算准确性。\n\n总结\n\nllm-cal 代表了 LLM 部署工具从"估算"向"测量"的演进。通过直接读取真实权重字节、识别现代架构特性、提供可信度标注,它为工程师提供了更可靠的决策依据。在混合精度量化日益普及的今天,这种诚实标注(honest-labeled)的方法论比传统的简化公式更具实用价值。