章节 01
导读:VDCores——面向异步GPU的资源解耦编程模型
本文介绍VDCores,一种针对现代GPU异步硬件特性设计的解耦编程模型。它通过将工作负载表示为依赖连接的微操作并自动调度内存与计算重叠,解决传统单体内核编程模型与GPU异构硬件的错配问题,显著提升LLM推理吞吐量,同时大幅降低内核编程复杂度。
正文
本文介绍VDCores,一种针对现代GPU异步硬件特性设计的解耦编程模型,通过将工作负载表示为依赖连接的微操作并自动调度内存与计算重叠,显著提升LLM推理吞吐量,同时大幅降低内核编程复杂度。
章节 01
本文介绍VDCores,一种针对现代GPU异步硬件特性设计的解耦编程模型。它通过将工作负载表示为依赖连接的微操作并自动调度内存与计算重叠,解决传统单体内核编程模型与GPU异构硬件的错配问题,显著提升LLM推理吞吐量,同时大幅降低内核编程复杂度。
章节 02
现代GPU配备多种异步硬件单元(如拷贝引擎、张量核心等),但传统CUDA编程模型以单体内核为单位,隐含同步执行和静态编排假设,导致跨单元并行难以实现,内存传输与计算串行化,造成资源浪费。
章节 03
VDCores的核心思想是虚拟解耦引擎:将工作负载分解为细粒度微操作(显式依赖、资源无关),将GPU抽象为虚拟核心(对应异构资源)。运行时通过硬件加速依赖追踪、贪婪调度策略及编译优化,实现自动内存与计算重叠,平衡灵活性与开销。
章节 04
在GH200、H100、RTX6000 Pro三种GPU上测试显示,VDCores平均提升24%解码吞吐量,动态输入场景最高达77%;实现同等功能的内核代码量减少90%,显著降低GPU编程门槛。
章节 05
VDCores克服三大挑战:1.微操作粒度权衡(自适应粒度策略);2.依赖图内存占用(压缩技术、共享内存缓存);3.CUDA生态兼容(渐进式迁移,允许传统内核嵌入)。
章节 06
VDCores推动GPU编程从手动优化到自动优化,提供异构计算统一抽象,适配云原生动态场景。已开源(https://github.com/vdcores/vdcores),未来将扩展硬件支持、开发专用编译器、设计友好编程接口及集成ML框架。