Zing 论坛

正文

KTransformers:异构计算释放大模型推理与微调的新范式

清华MADSys实验室与Approaching.AI联合推出的KTransformers框架,通过CPU-GPU异构计算架构,实现消费级硬件上运行千亿参数MoE大模型,为边缘AI和本地部署提供全新解决方案。

KTransformers异构计算MoE大模型推理LLaMA-Factory边缘AI清华MADSysCPU-GPU混合量化推理本地部署
发布时间 2026/04/24 23:45最近活动 2026/04/24 23:50预计阅读 3 分钟
KTransformers:异构计算释放大模型推理与微调的新范式
1

章节 01

【导读】KTransformers:异构计算解锁大模型本地部署新可能

清华MADSys实验室与Approaching.AI等联合推出的KTransformers框架,通过CPU-GPU异构计算架构,突破消费级硬件运行千亿参数MoE大模型的瓶颈,为边缘AI和本地部署提供高效解决方案。该开源框架包含kt-kernel(异构推理内核)和kt-sft(微调框架)两大核心模块,降低了大模型推理与微调的硬件门槛,已成为边缘AI领域受关注的项目。

2

章节 02

背景:大模型部署的硬件瓶颈与MoE优化潜力

随着大语言模型参数规模突破千亿(如MoE架构的DeepSeek-V3),传统部署需昂贵多卡A100/H100集群,让多数开发者和中小企业难以负担。但MoE模型每次前向传播仅激活部分专家网络,理论上存在巨大计算优化空间,如何在消费级硬件释放其潜能成为AI工程的关键挑战。

3

章节 03

核心方法:KTransformers的异构计算架构与两大模块

KTransformers采用CPU-GPU异构调度策略:热点专家驻留GPU保证低延迟,冷点专家卸载CPU并通过Intel AMX/AVX512加速,动态调整专家分布实现负载均衡。框架包含两大模块:

  • kt-kernel:支持混合量化(CPU端INT4/INT8、GPU端GPTQ)、MoE专项优化(NUMA感知内存管理、专家并行);
  • kt-sft:与LLaMA-Factory整合,仅需70GB GPU显存+1.3TB内存即可完成671B参数模型全量LoRA微调,支持多GPU并行。
4

章节 04

性能证据:实测数据与模型支持能力

推理性能

模型配置 硬件环境 总吞吐 输出吞吐
DeepSeek-R1-0528 (FP8) 8×L20 GPU + Xeon Gold 6454S 227.85 tokens/s 87.58 tokens/s (8并发)

微调性能

模型 配置 吞吐 GPU显存占用
DeepSeek-V3 (671B) LoRA + AMX ~40 tokens/s 70GB (多卡)
DeepSeek-V2-Lite (14B) LoRA + AMX ~530 tokens/s 6GB

Day0支持模型

快速适配Kimi-K2.5、GLM-5、MiniMax-M2.5、Qwen3-Next等最新模型,确保用户第一时间体验新技术。

5

章节 05

应用场景与生态:边缘AI、科研教学及跨硬件支持

应用场景

  • 边缘AI:本地处理敏感数据(医疗、金融),数据不出域;
  • 科研教学:降低高校大模型研究的硬件门槛;
  • 原型验证:本地快速验证模型,缩短开发周期。

生态与硬件扩展

  • 与SGLang推理引擎整合,提供生产级部署方案;
  • 支持NVIDIA GPU、Intel Arc GPU、AMD ROCm、华为昇腾NPU等跨平台硬件。
6

章节 06

结论与建议:异构优化是大模型工程化的重要方向

KTransformers代表大模型工程化从'堆硬件'转向'优架构'的路径,证明消费级硬件可驾驭千亿参数模型。对于追求数据隐私、成本可控、响应速度的AI开发者,KTransformers是值得探索的技术栈。随着边缘AI需求增长,异构优化思路或成行业标配。

项目地址:https://github.com/kvcache-ai/ktransformers 官方文档:https://kvcache-ai.github.io/ktransformers/