Zing 论坛

正文

VDCores:面向异步GPU的资源解耦编程与执行模型

本文介绍VDCores,一种针对现代GPU异步硬件特性设计的解耦编程模型,通过将工作负载表示为依赖连接的微操作并自动调度内存与计算重叠,显著提升LLM推理吞吐量,同时大幅降低内核编程复杂度。

GPU编程异步执行资源解耦LLM推理优化微操作虚拟核心计算架构
发布时间 2026/05/05 06:17最近活动 2026/05/06 11:50预计阅读 2 分钟
VDCores:面向异步GPU的资源解耦编程与执行模型
1

章节 01

导读:VDCores——面向异步GPU的资源解耦编程模型

本文介绍VDCores,一种针对现代GPU异步硬件特性设计的解耦编程模型。它通过将工作负载表示为依赖连接的微操作并自动调度内存与计算重叠,解决传统单体内核编程模型与GPU异构硬件的错配问题,显著提升LLM推理吞吐量,同时大幅降低内核编程复杂度。

2

章节 02

背景:传统GPU编程模型与硬件架构的错配

现代GPU配备多种异步硬件单元(如拷贝引擎、张量核心等),但传统CUDA编程模型以单体内核为单位,隐含同步执行和静态编排假设,导致跨单元并行难以实现,内存传输与计算串行化,造成资源浪费。

3

章节 03

VDCores核心方法:虚拟解耦引擎与动态调度

VDCores的核心思想是虚拟解耦引擎:将工作负载分解为细粒度微操作(显式依赖、资源无关),将GPU抽象为虚拟核心(对应异构资源)。运行时通过硬件加速依赖追踪、贪婪调度策略及编译优化,实现自动内存与计算重叠,平衡灵活性与开销。

4

章节 04

LLM推理场景下的性能与编程效率提升

在GH200、H100、RTX6000 Pro三种GPU上测试显示,VDCores平均提升24%解码吞吐量,动态输入场景最高达77%;实现同等功能的内核代码量减少90%,显著降低GPU编程门槛。

5

章节 05

技术挑战与解决方案

VDCores克服三大挑战:1.微操作粒度权衡(自适应粒度策略);2.依赖图内存占用(压缩技术、共享内存缓存);3.CUDA生态兼容(渐进式迁移,允许传统内核嵌入)。