# 腾讯开源hpc-ops：高性能LLM推理算子库，解码速度提升2.22倍

> 腾讯混元AI基础设施团队开源hpc-ops，一套专为NVIDIA H20 GPU深度优化的LLM推理高性能算子库，在解码阶段实现高达2.22倍加速，已在腾讯大规模生产环境验证。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-09T11:05:07.000Z
- 最近活动: 2026-04-09T11:16:38.348Z
- 热度: 150.8
- 关键词: LLM推理, CUDA优化, 算子库, 腾讯, H20, FP8量化, Hopper架构, 开源
- 页面链接: https://www.zingnex.cn/forum/thread/hpc-ops-llm-2-22
- Canonical: https://www.zingnex.cn/forum/thread/hpc-ops-llm-2-22
- Markdown 来源: ingested_event

---

## 背景：LLM推理的性能挑战

随着大语言模型（LLM）规模不断扩大，推理性能已成为制约AI应用落地的关键瓶颈。特别是在生产环境中，高吞吐、低延迟的推理服务直接影响用户体验和运营成本。

当前主流推理框架如vLLM、SGLang等虽已提供不错的基线性能，但在特定硬件上的深度优化仍有巨大空间。腾讯混元AI基础设施团队基于大规模生产实践，发现通过针对性算子优化可以显著提升推理效率，由此开发了hpc-ops并决定开源回馈社区。

## hpc-ops简介

hpc-ops是腾讯混元团队开发的高性能LLM推理算子库，专门针对NVIDIA H20 GPU进行深度优化。该库已在腾讯的大规模生产推理环境中得到验证，现在以开源形式发布，供社区使用和改进。

项目的核心目标是为LLM推理的关键算子提供业界领先的性能实现，同时保持与主流推理框架的良好兼容性，降低集成门槛。

## 核心性能指标

hpc-ops在多项关键算子上实现了显著性能提升，以下是主要算子的加速效果对比：

### Attention算子（BF16精度）

与FlashInfer、FlashAttention 2/3以及TensorRT-LLM等基线相比，hpc-ops的Attention算子在Prefill阶段实现1.33倍加速，在Decode阶段实现2.22倍加速。

### Attention算子（FP8精度）
在FP8量化模式下，相比FlashInfer、FlashAttention 3和TensorRT-LLM，hpc-ops在Prefill阶段实现1.12倍加速，在Decode阶段实现2.0倍加速。

### FusedMoE算子（FP8）
混合专家模型（MoE）的融合算子在FP8精度下，相比TensorRT-LLM和vLLM实现1.49倍（Prefill）和1.14倍（Decode）加速。

### GroupGEMM算子（FP8）
分组GEMM算子在FP8精度下，相比DeepGEMM实现1.1倍（Prefill）和1.88倍（Decode）加速。

这些性能提升在生产环境中意味着更低的延迟、更高的吞吐和更优的成本效益。

## 技术特性详解

hpc-ops的设计充分考虑了生产部署的实际需求，具备以下技术特性：

**生产级稳定性**：所有算子均经过腾讯大规模生产环境验证，确保在高压场景下的稳定性和可靠性。

**易于集成**：提供简洁的API设计，可无缝集成到vLLM、SGLang等主流推理框架中，无需大规模重构现有系统。

**丰富的精度支持**：原生支持BF16、FP8等多种数据类型，并支持块级和张量级等多种量化方案，满足不同场景对性能和精度的平衡需求。

**现代CUDA教程价值**：项目包含使用CuTe和CUTLASS构建SOTA算子的实践示例，代码仅数百行，具有很高的学习价值。

## 支持的算子类型

hpc-ops当前支持以下关键算子：

**解码和预填充优化**：针对Attention机制的两个阶段——Prefill（处理输入prompt）和Decode（生成输出token）分别优化，支持分页注意力（Paged Attention）机制。

**量化分组GEMM**：支持FP8权重的分组矩阵乘法，提供块级或张量级缩放选项，在保持精度的同时最大化计算效率。

**量化融合MoE**：支持FP8专家权重的融合混合专家算子，同样提供灵活的缩放策略，适配不同MoE架构。

## 硬件与软件要求

hpc-ops对运行环境有以下要求：

- **GPU架构**：NVIDIA SM90架构GPU（如H20、H100等Hopper架构显卡）
- **Python版本**：3.8或更高
- **编译器**：支持C++17的编译器
- **CUDA工具包**：CUDA 12.8或更高版本

这些要求确保了算子能够充分利用Hopper架构的最新特性，如FP8 Tensor Core支持。

## 安装与使用

安装过程简洁明了：

```bash
git clone https://github.com/Tencent/hpc-ops.git
cd hpc-ops

# 构建包
make wheel
python3 -m pip install dist/*.whl
```

以下是一个GroupGEMM FP8算子的使用示例：

```python
import torch
import hpc

num_tokens = 1024
num_group, n, k = 8, 4096, 4096
x = torch.randn((num_tokens, k), dtype=torch.float, device="cuda").to(torch.float8_e4m3fn)
w = torch.randn((num_group, n, k), dtype=torch.float, device="cuda").to(torch.float8_e4m3fn)
scale = torch.full((num_group,), 1.0, dtype=torch.float, device="cuda")
num_tokens_per_group = torch.full((num_group,), 8, dtype=torch.int32, device="cuda")
cu_num_tokens_per_group = torch.cumsum(
    torch.cat([torch.tensor([0], dtype=torch.int32, device="cuda"), num_tokens_per_group]),
    dim=0
).to(torch.int32)

output = hpc.group_gemm_pertensor_fp8(
    x, w, num_tokens_per_group, cu_num_tokens_per_group, scale
)
```

其他算子的使用方法可参考tests/目录下的测试文件。

## 技术实现亮点

hpc-ops的性能提升来源于多方面的深度优化：

**内存访问优化**：通过精细的内存布局设计和访存模式优化，最大化利用GPU内存带宽，减少数据搬运开销。

**计算并行度提升**：针对Hopper架构的Tensor Core特性进行指令级优化，提高计算单元的利用率。

**量化感知实现**：在算子层面深度集成量化逻辑，避免频繁的精度转换开销，同时保持数值稳定性。

**融合策略**：将多个小算子融合为单个内核，减少内核启动开销和中间结果写回内存的开销。

## 未来路线图

腾讯团队规划了丰富的后续改进方向：

**稀疏注意力算子**：针对长上下文LLM优化稀疏注意力内核，提升内存受限工作负载的吞吐量。

**扩展量化支持**：开发更灵活的量化策略，支持4bit/8bit混合精度，在速度和精度之间提供更多权衡选项。

**计算通信融合**：开发重叠计算和GPU间通信的边界突破内核，最小化多节点/多GPU分布式推理的开销。

## 开源意义与社区参与

hpc-ops的开源具有多重意义：

首先，它为社区提供了经过生产验证的高性能算子实现，帮助更多团队提升LLM推理效率。

其次，项目包含的CuTe和CUTLASS实践示例，可作为现代CUDA编程的学习资源。

最后，腾讯团队欢迎有针对性的高影响力贡献，无论是修复边缘情况的内核bug，还是针对特定LLM推理场景的优化，都将帮助完善这一生产级工具包。

项目采用友好的开源协议，鼓励社区使用和贡献。感兴趣的开发者可以通过GitHub仓库获取代码、提交Issue或Pull Request。
