# LLM GPU VRAM 计算器：大模型部署显存与性能估算工具

> 一个交互式 Web 工具，用于估算在不同 GPU 配置上运行大语言模型所需的显存容量、KV 缓存压力和吞吐性能。支持模型目录、GPU 硬件库、量化策略和多语言界面。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-05-25T15:14:52.000Z
- 最近活动: 2026-05-25T15:22:17.100Z
- 热度: 165.9
- 关键词: LLM, GPU, VRAM, 显存计算, 大模型部署, 量化, KV缓存, 性能估算, TypeScript, Roofline模型, 推理优化
- 页面链接: https://www.zingnex.cn/forum/thread/llm-gpu-vram-edff5f19
- Canonical: https://www.zingnex.cn/forum/thread/llm-gpu-vram-edff5f19
- Markdown 来源: ingested_event

---

# LLM GPU VRAM 计算器：大模型部署显存与性能估算工具

## 原作者与来源

- **原作者/维护者**: jryaonj
- **来源平台**: GitHub
- **原项目名**: llm-gpu-vram-calculator
- **原始链接**: <https://github.com/jryaonj/llm-gpu-vram-calculator>
- **在线演示**: <https://jryaonj.github.io/llm-gpu-vram-calculator>
- **发布时间**: 2026年5月25日
- **开源协议**: MIT License

---

## 项目概述

在大语言模型（LLM）部署过程中，显存（VRAM）规划和性能预估是工程师面临的首要挑战。如何确定特定模型在目标硬件上能否运行？需要多少张 GPU？量化策略对显存和速度的影响如何？这些问题往往需要在实际部署前得到相对准确的估算。

LLM GPU VRAM Calculator 是一个交互式 Web 计算工具，专门用于估算 LLM 推理服务的显存需求、KV 缓存压力以及吞吐性能。它通过整合模型参数、硬件规格和运行时配置，为用户提供直观的容量规划和性能预测。

---

## 核心功能特性

### 1. 引导式配置界面

工具提供精细化的配置选项，覆盖模型、硬件和运行时三个维度：

- **模型选择**: 内置主流开源模型目录，包括 Qwen3/Qwen3.5/Qwen3.6、DeepSeek V3/R1、Gemma 3/4 等系列
- **GPU 硬件库**: 收录各厂商 GPU 的显存容量、带宽、算力等关键参数
- **运行时参数**: 支持配置量化精度、上下文长度、并发请求数等

### 2. 模型目录支持

当前内置模型家族包括：

**Qwen 系列**:
- Qwen3、Qwen3.5、Qwen3.6 的 Dense 和 MoE 版本
- 覆盖从 0.6B 到 235B 参数的多种规格

**DeepSeek 系列**:
- DeepSeek V3、V3.1 以及 R1-0528 MoE 版本
- 支持 MLA（Multi-head Latent Attention）KV 缓存估算

**Gemma 系列**:
- Gemma 3 Dense 版本
- Gemma 4 Dense 和 MoE 版本
- 支持 Hybrid 本地/全局注意力模式的显存估算

### 3. GPU 硬件数据库

GPU 目录包含以下关键信息：
- 发布日期和厂商元数据
- 显存容量和内存带宽
- 架构代际和计算能力提示
- 官方或补充来源链接

### 4. 量化与 KV 缓存支持

工具支持多种量化策略的显存估算：

**权重量化**:
- FP16（2 bytes/参数）
- FP8（1 byte/参数）
- INT8（1 byte/参数）
- INT4（0.5 bytes/参数，含分组量化开销）

**KV 缓存量化**:
- 支持 FP8、INT8 等 KV 缓存压缩方案
- 参考 vLLM 等主流推理框架的量化实现

### 5. 公式与理论面板

工具内置计算公式说明面板，展示容量和吞吐估算的理论基础，帮助用户理解数字背后的计算逻辑。

### 6. 数据导出功能

支持导出三类 CSV 文件：
- 模型目录元数据
- GPU 硬件规格表
- 当前配置的估算结果

### 7. 国际化支持

- 默认语言：英文 (en_US)
- 支持中文 (zh_CN) 界面
- 导航、标签、导出控件等主要 UI 元素已本地化

---

## 显存计算原理

### 模型权重大小

权重大小计算公式：

```
weight_vram_gb = total_params_b × (bytes_per_param + quant_overhead)
```

其中 `total_params_b` 是模型总参数量（以十亿为单位）。对于分组 INT4 量化，额外开销计算为：

```
quant_overhead = 3 / awq_group_size
```

### KV 缓存显存

KV 缓存是长上下文服务显存消耗的主要来源，计算公式：

```
kv_cache_gb = layers × kv_heads × head_dim × 2 × context_tokens × kv_bytes / 2^30
```

因子 `2` 代表 Key 和 Value 两个张量。KV 缓存与上下文长度和并发请求数呈线性关系，是长文本推理的显存瓶颈。

### 可用显存预算

```
usable_vram_gb = gpu_vram_gb × gpu_count - max(total_vram_gb × (1 - utilization), reserve_gb)
```

预留空间 (`reserve_gb`) 用于防止内存分配碎片、CUDA 图、临时缓冲区、运行时元数据和测量误差。提高利用率会使估算更宽松，但会增加 OOM 风险。

---

## 吞吐性能估算

### Prompt 预填充吞吐

Prompt 预填充阶段读取已有上下文，被视为计算密集型路径：

```
prompt_tok_s = fp16_tflops × 1000 × gpu_count^0.6 / (total_params_b × sqrt(2))
```

- `sqrt(2)` 是经验阻尼因子，用于修正非 GEMM 工作、内核占用不完美、运行时调度、注意力开销等因素
- `gpu_count^0.6` 反映多卡扩展的非线性特性，预填充阶段需要更多同步和激活值跨设备传输

### 生成阶段吞吐

自回归生成阶段被视为带宽密集型路径，因为每个新 token 都需要重复读取激活权重和注意力状态：

```
gen_tok_s = bandwidth_gbs × gpu_count^0.8 / (active_params_b × weight_bytes)
```

- Dense 模型的激活参数通常等于总参数量
- MoE 模型应使用每 token 的路由激活参数量
- `gpu_count^0.8` 假设解码阶段比预填充更能从内存带宽聚合中受益，但仍会因互连、张量并行通信、路由和流水线气泡而损失部分效率

---

## 技术实现

### 技术栈

- **前端框架**: TypeScript + React
- **构建工具**: Vite
- **代码规范**: ESLint
- **部署**: GitHub Pages

### 项目结构

- `src/data/modelDefs.ts`: 模型参数、上下文长度、发布日期和来源链接元数据
- `src/data/gpuCards.ts`: GPU 显存、带宽、算力、发布日期和来源链接元数据
- `src/utils/formulas.ts`: 共享计算公式辅助函数
- `docs/llm_calc.md`: VRAM 公式、吞吐启发式、来源策略和导出说明文档

### 数据来源策略

每个内置模型和 GPU 条目都尽可能包含来源 URL：
- 模型通常指向 Hugging Face 模型卡或配置文件
- GPU 数据优先使用官方厂商页面，TechPowerUp 等补充来源作为参考
- 估算字段（如 INT4 权重大小、MLA KV 缓存近似值）在 `sourceNote` 中注明

---

## 使用场景与价值

### 1. 部署前容量规划

在采购硬件或申请云资源前，快速评估目标模型在现有 GPU 配置上的可行性，避免资源浪费。

### 2. 量化策略对比

比较 FP16、INT8、INT4 等不同量化级别对显存占用和性能的影响，选择最适合业务需求的方案。

### 3. 长上下文服务评估

通过调整上下文长度参数，理解 KV 缓存对显存的线性增长关系，为长文本应用场景（如文档分析、代码生成）规划资源。

### 4. 多卡扩展预测

估算多 GPU 配置下的性能扩展效率，帮助决策是单卡大显存还是多卡并行更划算。

### 5. 教学与学习

作为 LLM 推理优化的教学工具，帮助开发者理解显存构成、计算瓶颈和 Roofline 模型分析。

---

## 校准与使用建议

工具的默认估算应被视为保守的规划值：

1. 在目标运行时和模型上运行小规模基准测试
2. 将实测的预填充和解码吞吐与计算器结果对比
3. 根据实测结果调整缩放指数或有效 TFLOPS/带宽参数
4. 容量侧保持比速度侧更严格；速度不足只是不便，容量不足会导致任务无法启动

---

## 技术亮点

### Roofline 模型应用

工具基于 Roofline 模型将推理工作负载分为两类瓶颈：
- **计算瓶颈**: Prompt 预填充阶段，受限于 GPU 算力
- **内存带宽瓶颈**: Token 生成阶段，受限于显存带宽

这种分析方法遵循实际工程直觉：工作负载受限于更紧的天花板——计算吞吐或内存带宽。

### MoE 模型特殊处理

针对 DeepSeek V3/R1 等 MoE 模型，工具采用 MLA（Multi-head Latent Attention）风格的 KV 近似，基于潜在 KV 秩而非标准 GQA 头几何结构，更准确地估算稀疏激活模型的显存需求。

### 本地化实现

所有计算在浏览器端完成，使用 JavaScript Blob 生成 CSV 导出，无需服务器参与，保护用户数据隐私。

---

## 总结

LLM GPU VRAM Calculator 是一个实用的大模型部署规划工具，它填补了理论模型规格与实际硬件配置之间的鸿沟。通过整合模型参数、GPU 规格、量化策略和 Roofline 性能模型，它为开发者和运维工程师提供了直观的显存和性能估算。

在 LLM 应用快速落地的今天，这类工具的价值不仅在于节省硬件成本，更在于帮助团队做出数据驱动的技术决策——选择合适的模型、量化和硬件组合，在成本与性能之间找到最优平衡点。