正文

腾讯开源hpc-ops：高性能LLM推理算子库，解码速度提升2.22倍

腾讯混元AI基础设施团队开源hpc-ops，一套专为NVIDIA H20 GPU深度优化的LLM推理高性能算子库，在解码阶段实现高达2.22倍加速，已在腾讯大规模生产环境验证。

LLM推理CUDA优化算子库腾讯H20FP8量化Hopper架构开源

发布时间 2026/04/09 19:05最近活动 2026/04/09 19:16预计阅读 3 分钟

章节 01

【导读】腾讯开源hpc-ops：H20 GPU优化的LLM推理算子库，解码加速2.22倍

腾讯混元AI基础设施团队开源hpc-ops，一套专为NVIDIA H20 GPU深度优化的LLM推理高性能算子库。该库在解码阶段实现高达2.22倍加速，已在腾讯大规模生产环境验证，旨在为社区提供高性能算子实现并降低集成门槛。

章节 02

背景：LLM推理性能瓶颈与优化需求

随着大语言模型（LLM）规模扩大，推理性能成为AI应用落地的关键瓶颈，生产环境中高吞吐、低延迟服务直接影响用户体验和成本。当前主流框架如vLLM、SGLang虽有基线性能，但特定硬件深度优化仍有空间。腾讯基于生产实践发现针对性算子优化可显著提升效率，故开发hpc-ops并开源。

章节 03

hpc-ops简介与核心技术特性

hpc-ops是腾讯混元团队开发的高性能LLM推理算子库，针对NVIDIA H20 GPU深度优化，已通过腾讯大规模生产验证并开源。核心目标是提供业界领先的关键算子性能，同时兼容主流推理框架。技术特性包括：生产级稳定性（高压场景验证）、易于集成（简洁API无缝接入vLLM/SGLang）、丰富精度支持（BF16/FP8等，多种量化方案）、现代CUDA教程价值（CuTe/CUTLASS实践示例，代码简洁）。

章节 04

核心性能指标：多算子加速效果显著

hpc-ops在多项关键算子上实现显著加速：

Attention算子（BF16）：Prefill阶段1.33倍，Decode阶段2.22倍（对比FlashInfer、FlashAttention 2/3、TensorRT-LLM）；
Attention算子（FP8）：Prefill 1.12倍，Decode 2.0倍（对比FlashInfer、FlashAttention3、TensorRT-LLM）；
FusedMoE算子（FP8）：Prefill1.49倍，Decode1.14倍（对比TensorRT-LLM、vLLM）；
GroupGEMM算子（FP8）：Prefill1.1倍，Decode1.88倍（对比DeepGEMM）。这些提升意味着更低延迟、更高吞吐和更优成本效益。

章节 05

支持的算子类型与运行环境要求

支持的算子：

解码和预填充优化：Attention机制的Prefill/Decode阶段优化，支持分页注意力；
量化分组GEMM：FP8权重分组矩阵乘法，块级/张量级缩放；
量化融合MoE：FP8专家权重融合混合专家算子，灵活缩放策略。 运行环境要求：
GPU架构：NVIDIA SM90（如H20、H100等Hopper架构）；
Python：3.8+；
编译器：支持C++17；
CUDA工具包：12.8+。

章节 06

技术实现亮点：深度优化带来性能提升

hpc-ops性能提升源于多方面优化：

内存访问优化：精细内存布局与访存模式设计，最大化GPU带宽利用；
计算并行度提升：针对Hopper架构Tensor Core的指令级优化，提高计算单元利用率；
量化感知实现：算子层面深度集成量化逻辑，避免精度转换开销；
融合策略：多小算子融合为单个内核，减少启动和中间结果写回开销。

章节 07

未来路线图与社区参与

未来路线图：

稀疏注意力算子：优化长上下文LLM稀疏注意力内核；
扩展量化支持：开发4bit/8bit混合精度策略；
计算通信融合：重叠计算与GPU间通信，降低分布式推理开销。 开源意义与社区参与：
提供生产验证的高性能算子，助力社区提升推理效率；
CuTe/CUTLASS示例可作为现代CUDA学习资源；
欢迎社区贡献（修复bug、场景优化等），项目采用友好开源协议。可通过GitHub仓库获取代码、提交Issue或PR。

腾讯开源hpc-ops：高性能LLM推理算子库，解码速度提升2.22倍

【导读】腾讯开源hpc-ops：H20 GPU优化的LLM推理算子库，解码加速2.22倍

背景：LLM推理性能瓶颈与优化需求

hpc-ops简介与核心技术特性

核心性能指标：多算子加速效果显著

支持的算子类型与运行环境要求

技术实现亮点：深度优化带来性能提升

未来路线图与社区参与

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

Azure GPU 虚拟机实战：4x V100 本地部署 70B+ 大模型的完整方案