正文

v100llm：专为NVIDIA V100 GPU打造的高性能大模型推理引擎

v100llm是一个专门为NVIDIA V100 (SM70) GPU架构设计的大语言模型推理引擎，通过底层CUDA内核优化和Paged KV缓存技术，在老旧硬件上实现接近新代GPU的推理性能。

V100GPU推理优化CUDA内核AWQ量化Paged KV缓存张量并行大模型部署Qwen

发布时间 2026/04/30 14:13最近活动 2026/04/30 14:20预计阅读 10 分钟

章节 01

导读 / 主楼：v100llm：专为NVIDIA V100 GPU打造的高性能大模型推理引擎

章节 02

背景

背景：被忽视的V100用户群体\n\n在大语言模型推理领域，硬件性能优化一直是开发者关注的焦点。然而，一个长期被忽视的现实是：市面上主流的推理框架如vLLM、TGI、SGLang等，几乎都是针对NVIDIA A100和H100等新一代GPU进行优化的。这意味着大量仍在使用V100 GPU的用户只能获得次优的推理性能。\n\nV100作为NVIDIA上一代数据中心级GPU，虽然架构较老（SM70计算能力），但在全球范围内仍有大量部署。对于许多中小型企业、研究机构和开发者而言，升级到A100/H100的成本相当高昂。因此，如何在现有V100硬件上榨取最大性能，成为一个具有实际价值的工程问题。\n\n## 项目概述：v100llm的诞生\n\nv100llm正是为解决这一问题而生的开源项目。它从底层CUDA内核开始，针对V100的架构特性进行量身定制，最大化挖掘这一代老硬件的推理潜力。与通用框架不同，v100llm不做"通吃所有GPU"的妥协，而是专注于V100的极致优化。\n\n该项目目前主要支持Qwen3.5-27B-AWQ模型，采用双卡V100 16GB配置（TP=2张量并行）。开发团队表示将持续扩展更多模型支持，并始终以V100性能作为首要优化目标。\n\n## 核心技术架构解析\n\nv100llm的技术亮点体现在多个层面的深度优化：\n\n### 1. FlashAttention 1.5 SM70专用内核\n\n项目实现了专门针对SM70架构的Attention内核，同时支持解码（decode）和预填充（prefill）阶段。特别值得注意的是其INT4/INT8分页路径设计，这在减少显存占用的同时保持了计算效率。\n\n### 2. Paged KV缓存机制\n\nv100llm采用分页式KV缓存设计，支持INT4、INT8和FP16三种精度格式。缓存以64个token为一页进行组织，并实现了引用计数前缀缓存（ref-counted prefix caching），这对于处理多轮对话和批量请求场景尤为重要。\n\n### 3. AWQ INT4量化权重支持\n\n通过移植TurboMind内核，v100llm实现了AWQ INT4权重的极低显存占用推理。这使得27B参数级别的模型能够在双卡V100 16GB上流畅运行，大大降低了硬件门槛。\n\n### 4. 张量并行与连续批处理\n\nTP=2张量并行配合连续批处理（continuous batching）机制，结合multi-graph capture技术，有效提升了GPU利用率和吞吐量。融合算子设计（AllReduce + residual + RMSNorm epilogue，以及q/k norm + RoPE）进一步减少了内核启动开销。\n\n### 5. 稀疏预填充优化\n\n针对长上下文场景，v100llm实现了稀疏预填充技术，通过anchor + recent + sink的token选择策略，在8K以上上下文长度时显著加速预填充阶段。\n\n## 性能基准测试数据\n\n根据项目提供的基准测试数据，在V100 TP=2、INT8 Paged KV、前缀缓存关闭、冷启动条件下，性能表现如下：\n\n| 上下文长度 | 预填充(B=1) | 解码(B=1) | 解码(B=4聚合) |\n|-----------|------------|----------|--------------|\n| 1K | 2031 tok/s | 45.4 tok/s | 107 tok/s |\n| 8K | 1784 tok/s | 43.0 tok/s | 128 tok/s |\n| 16K | 1589 tok/s | 39.1 tok/s | 140 tok/s |\n| 64K | 1483 tok/s | 39.1 tok/s | — |\n| 128K | 1426 tok/s | 33.0 tok/s | — |\n\n这些数据表明，即使在128K长上下文场景下，v100llm仍能保持33 tok/s的解码速度，这对于V100这样的老一代硬件而言是相当出色的表现。\n\n## 部署与使用\n\nv100llm的安装部署相对简单。用户可以从GitHub Releases页面下载预编译的wheel包安装，依赖包括PyTorch 2.5.1、transformers、safetensors、xgrammar、fastapi和uvicorn。值得注意的是，项目自带CUDA 12.4 runtime，无需系统级CUDA安装。\n\n启动服务时，使用torchrun进行多进程部署：\n\n`bash\ntorchrun --nproc_per_node=2 --master_port=29502 \\\n -m voltainfer.engine.server \\\n --model-dir /path/to/Qwen3.5-27B-AWQ \\\n --tp-size 2 \\\n --kv-cache-dtype int8 \\\n --enable-paged-kv \\\n --max-seq-len 8192 \\\n --decode-batch-size 4 \\\n --port 8002\n`\n\n项目提供OpenAI兼容的HTTP API接口，支持tool calling、streaming SSE和结构化输出，可以无缝集成到现有应用生态中。\n\n## 实际意义与适用场景\n\nv100llm的出现具有重要的实用价值：\n\n1. 成本效益：对于已拥有V100硬件的用户，无需昂贵的硬件升级即可获得显著提升的推理性能。\n\n2. 资源再利用：延长了V100这一代经典GPU在大模型推理领域的使用寿命，符合可持续计算的理念。\n\n3. 教育与研究：为学习CUDA优化和推理引擎设计提供了优秀的参考实现，特别是其针对特定架构的深度优化思路。\n\n4. 特定场景优化：对于需要私有化部署、但预算有限的中小团队，v100llm提供了一个可行的性能优化方案。\n\n## 局限性与未来展望\n\n需要指出的是，v100llm目前仅支持V100 (SM70)架构，不支持其他GPU。模型支持也相对有限，目前主要验证于Qwen3.5-27B-AWQ。开发团队列出的路线图包括：\n\n- 扩展更多AWQ量化模型支持\n- 单卡V100 16GB小模型优化\n- 前缀缓存命中率提升\n- 投机采样（speculative decoding）实现\n\n## 结语\n\nv100llm代表了一种"垂直优化"的工程思路：不追求通用性，而是在特定硬件上做到极致。这种专注带来的性能收益是显著的，也为其他老一代硬件的优化提供了思路参考。对于仍在使用V100的开发者而言，这无疑是一个值得尝试的项目。

章节 03

补充观点 1

背景：被忽视的V100用户群体\n\n在大语言模型推理领域，硬件性能优化一直是开发者关注的焦点。然而，一个长期被忽视的现实是：市面上主流的推理框架如vLLM、TGI、SGLang等，几乎都是针对NVIDIA A100和H100等新一代GPU进行优化的。这意味着大量仍在使用V100 GPU的用户只能获得次优的推理性能。\n\nV100作为NVIDIA上一代数据中心级GPU，虽然架构较老（SM70计算能力），但在全球范围内仍有大量部署。对于许多中小型企业、研究机构和开发者而言，升级到A100/H100的成本相当高昂。因此，如何在现有V100硬件上榨取最大性能，成为一个具有实际价值的工程问题。\n\n项目概述：v100llm的诞生\n\nv100llm正是为解决这一问题而生的开源项目。它从底层CUDA内核开始，针对V100的架构特性进行量身定制，最大化挖掘这一代老硬件的推理潜力。与通用框架不同，v100llm不做"通吃所有GPU"的妥协，而是专注于V100的极致优化。\n\n该项目目前主要支持Qwen3.5-27B-AWQ模型，采用双卡V100 16GB配置（TP=2张量并行）。开发团队表示将持续扩展更多模型支持，并始终以V100性能作为首要优化目标。\n\n核心技术架构解析\n\nv100llm的技术亮点体现在多个层面的深度优化：\n\n1. FlashAttention 1.5 SM70专用内核\n\n项目实现了专门针对SM70架构的Attention内核，同时支持解码（decode）和预填充（prefill）阶段。特别值得注意的是其INT4/INT8分页路径设计，这在减少显存占用的同时保持了计算效率。\n\n2. Paged KV缓存机制\n\nv100llm采用分页式KV缓存设计，支持INT4、INT8和FP16三种精度格式。缓存以64个token为一页进行组织，并实现了引用计数前缀缓存（ref-counted prefix caching），这对于处理多轮对话和批量请求场景尤为重要。\n\n3. AWQ INT4量化权重支持\n\n通过移植TurboMind内核，v100llm实现了AWQ INT4权重的极低显存占用推理。这使得27B参数级别的模型能够在双卡V100 16GB上流畅运行，大大降低了硬件门槛。\n\n4. 张量并行与连续批处理\n\nTP=2张量并行配合连续批处理（continuous batching）机制，结合multi-graph capture技术，有效提升了GPU利用率和吞吐量。融合算子设计（AllReduce + residual + RMSNorm epilogue，以及q/k norm + RoPE）进一步减少了内核启动开销。\n\n5. 稀疏预填充优化\n\n针对长上下文场景，v100llm实现了稀疏预填充技术，通过anchor + recent + sink的token选择策略，在8K以上上下文长度时显著加速预填充阶段。\n\n性能基准测试数据\n\n根据项目提供的基准测试数据，在V100 TP=2、INT8 Paged KV、前缀缓存关闭、冷启动条件下，性能表现如下：\n\n| 上下文长度 | 预填充(B=1) | 解码(B=1) | 解码(B=4聚合) |\n|-----------|------------|----------|--------------|\n| 1K | 2031 tok/s | 45.4 tok/s | 107 tok/s |\n| 8K | 1784 tok/s | 43.0 tok/s | 128 tok/s |\n| 16K | 1589 tok/s | 39.1 tok/s | 140 tok/s |\n| 64K | 1483 tok/s | 39.1 tok/s | — |\n| 128K | 1426 tok/s | 33.0 tok/s | — |\n\n这些数据表明，即使在128K长上下文场景下，v100llm仍能保持33 tok/s的解码速度，这对于V100这样的老一代硬件而言是相当出色的表现。\n\n部署与使用\n\nv100llm的安装部署相对简单。用户可以从GitHub Releases页面下载预编译的wheel包安装，依赖包括PyTorch 2.5.1、transformers、safetensors、xgrammar、fastapi和uvicorn。值得注意的是，项目自带CUDA 12.4 runtime，无需系统级CUDA安装。\n\n启动服务时，使用torchrun进行多进程部署：\n\nbash\ntorchrun --nproc_per_node=2 --master_port=29502 \\\n -m voltainfer.engine.server \\\n --model-dir /path/to/Qwen3.5-27B-AWQ \\\n --tp-size 2 \\\n --kv-cache-dtype int8 \\\n --enable-paged-kv \\\n --max-seq-len 8192 \\\n --decode-batch-size 4 \\\n --port 8002\n\n\n项目提供OpenAI兼容的HTTP API接口，支持tool calling、streaming SSE和结构化输出，可以无缝集成到现有应用生态中。\n\n实际意义与适用场景\n\nv100llm的出现具有重要的实用价值：\n\n1. 成本效益：对于已拥有V100硬件的用户，无需昂贵的硬件升级即可获得显著提升的推理性能。\n\n2. 资源再利用：延长了V100这一代经典GPU在大模型推理领域的使用寿命，符合可持续计算的理念。\n\n3. 教育与研究：为学习CUDA优化和推理引擎设计提供了优秀的参考实现，特别是其针对特定架构的深度优化思路。\n\n4. 特定场景优化：对于需要私有化部署、但预算有限的中小团队，v100llm提供了一个可行的性能优化方案。\n\n局限性与未来展望\n\n需要指出的是，v100llm目前仅支持V100 (SM70)架构，不支持其他GPU。模型支持也相对有限，目前主要验证于Qwen3.5-27B-AWQ。开发团队列出的路线图包括：\n\n- 扩展更多AWQ量化模型支持\n- 单卡V100 16GB小模型优化\n- 前缀缓存命中率提升\n- 投机采样（speculative decoding）实现\n\n结语\n\nv100llm代表了一种"垂直优化"的工程思路：不追求通用性，而是在特定硬件上做到极致。这种专注带来的性能收益是显著的，也为其他老一代硬件的优化提供了思路参考。对于仍在使用V100的开发者而言，这无疑是一个值得尝试的项目。

v100llm：专为NVIDIA V100 GPU打造的高性能大模型推理引擎

导读 / 主楼：v100llm：专为NVIDIA V100 GPU打造的高性能大模型推理引擎

背景

补充观点 1

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎