正文

THInfer：国产超算上的大模型推理加速方案

THInfer针对国产MT-3000异构众核处理器的内存带宽瓶颈，通过算子优化、图融合和P-B-D流水线等技术，在7B模型上实现比A800 GPU高67%-84%的吞吐提升。

大模型推理异构众核内存带宽优化国产超算VLIW SIMD计算图融合流水线并行天河超算

发布时间 2026/05/25 18:03最近活动 2026/05/26 12:50预计阅读 2 分钟

章节 01

【导读】THInfer：国产超算大模型推理加速方案核心亮点

THInfer是针对国产MT-3000异构众核处理器内存带宽瓶颈设计的大模型推理加速方案，通过算子优化、图融合和Prefill-Buffer-Decode（P-B-D）流水线等技术，在7B模型上实现比A800 GPU高67%-84%的吞吐提升，充分发挥国产超算硬件潜力。

章节 02

大型语言模型推理受内存带宽限制（内存墙困境），Transformer注意力机制频繁访问KV缓存导致计算单元等待数据。国产MT-3000异构众核处理器虽计算能力强，但主存带宽有限、内存层次分布式，通用GPU推理框架迁移后性能下降，无法发挥硬件潜力。

章节 03

算子优化：针对MT-3000的VLIW SIMD架构手工编写FP16内核，利用指令级并行、向量化访问和寄存器优化提升计算效率；
图融合：密度驱动融合小算子减少内存往返，全局优化执行顺序提升缓存命中率；
P-B-D流水线：Prefill（并行处理输入）、Buffer（管理KV缓存）、Decode（逐token生成）三阶段流水线，配合两级通信机制实现混合并行。

章节 04

在Llama模型测试中：

章节 05

技术启示：硬件特性决定优化方向，底层算子调优仍有空间，流水线设计可隐藏延迟，国产芯片潜力大； 应用场景：超算中心大模型服务、边缘轻量化部署、多模态推理； 未来方向：动态批处理优化、量化支持、多模态扩展。

章节 06

THInfer通过深度软硬件协同设计，在国产超算上实现高效大模型推理，证明国产算力生态能支撑AI计算需求。对AI系统优化者的启示：理解硬件才能写出高效软件。