Zing 论坛

正文

THInfer:国产超算上的大模型推理加速方案

THInfer针对国产MT-3000异构众核处理器的内存带宽瓶颈,通过算子优化、图融合和P-B-D流水线等技术,在7B模型上实现比A800 GPU高67%-84%的吞吐提升。

大模型推理异构众核内存带宽优化国产超算VLIW SIMD计算图融合流水线并行天河超算
发布时间 2026/05/25 18:03最近活动 2026/05/26 12:50预计阅读 2 分钟
THInfer:国产超算上的大模型推理加速方案
1

章节 01

【导读】THInfer:国产超算大模型推理加速方案核心亮点

THInfer是针对国产MT-3000异构众核处理器内存带宽瓶颈设计的大模型推理加速方案,通过算子优化、图融合和Prefill-Buffer-Decode(P-B-D)流水线等技术,在7B模型上实现比A800 GPU高67%-84%的吞吐提升,充分发挥国产超算硬件潜力。

2

章节 02

问题背景:大模型推理的内存墙与国产异构众核挑战

大型语言模型推理受内存带宽限制(内存墙困境),Transformer注意力机制频繁访问KV缓存导致计算单元等待数据。国产MT-3000异构众核处理器虽计算能力强,但主存带宽有限、内存层次分布式,通用GPU推理框架迁移后性能下降,无法发挥硬件潜力。

3

章节 03

核心技术:算子优化、图融合与P-B-D流水线

  1. 算子优化:针对MT-3000的VLIW SIMD架构手工编写FP16内核,利用指令级并行、向量化访问和寄存器优化提升计算效率;
  2. 图融合:密度驱动融合小算子减少内存往返,全局优化执行顺序提升缓存命中率;
  3. P-B-D流水线:Prefill(并行处理输入)、Buffer(管理KV缓存)、Decode(逐token生成)三阶段流水线,配合两级通信机制实现混合并行。
4

章节 04

实验结果:THInfer性能超越顶级GPU

在Llama模型测试中:

  • 7B模型:比DeepSpeed(2×V100S)提升62%-73%,比A800 GPU提升67%-84%;
  • 13B/30B模型:性能与GPU相当或更优;
  • 70B模型:稳定运行,而GPU框架同配置无法启动。
5

章节 05

技术启示与应用展望

技术启示:硬件特性决定优化方向,底层算子调优仍有空间,流水线设计可隐藏延迟,国产芯片潜力大; 应用场景:超算中心大模型服务、边缘轻量化部署、多模态推理; 未来方向:动态批处理优化、量化支持、多模态扩展。

6

章节 06

结语:软硬件协同的典范与国产算力价值

THInfer通过深度软硬件协同设计,在国产超算上实现高效大模型推理,证明国产算力生态能支撑AI计算需求。对AI系统优化者的启示:理解硬件才能写出高效软件。