正文

KTransformers：异构计算释放大模型推理与微调的新范式

清华MADSys实验室与Approaching.AI联合推出的KTransformers框架，通过CPU-GPU异构计算架构，实现消费级硬件上运行千亿参数MoE大模型，为边缘AI和本地部署提供全新解决方案。

KTransformers异构计算MoE大模型推理LLaMA-Factory边缘AI清华MADSysCPU-GPU混合量化推理本地部署

发布时间 2026/04/24 23:45最近活动 2026/04/24 23:50预计阅读 3 分钟

章节 01

【导读】KTransformers：异构计算解锁大模型本地部署新可能

清华MADSys实验室与Approaching.AI等联合推出的KTransformers框架，通过CPU-GPU异构计算架构，突破消费级硬件运行千亿参数MoE大模型的瓶颈，为边缘AI和本地部署提供高效解决方案。该开源框架包含kt-kernel（异构推理内核）和kt-sft（微调框架）两大核心模块，降低了大模型推理与微调的硬件门槛，已成为边缘AI领域受关注的项目。

章节 02

背景：大模型部署的硬件瓶颈与MoE优化潜力

随着大语言模型参数规模突破千亿（如MoE架构的DeepSeek-V3），传统部署需昂贵多卡A100/H100集群，让多数开发者和中小企业难以负担。但MoE模型每次前向传播仅激活部分专家网络，理论上存在巨大计算优化空间，如何在消费级硬件释放其潜能成为AI工程的关键挑战。

章节 03

核心方法：KTransformers的异构计算架构与两大模块

KTransformers采用CPU-GPU异构调度策略：热点专家驻留GPU保证低延迟，冷点专家卸载CPU并通过Intel AMX/AVX512加速，动态调整专家分布实现负载均衡。框架包含两大模块：

kt-kernel：支持混合量化（CPU端INT4/INT8、GPU端GPTQ）、MoE专项优化（NUMA感知内存管理、专家并行）；
kt-sft：与LLaMA-Factory整合，仅需70GB GPU显存+1.3TB内存即可完成671B参数模型全量LoRA微调，支持多GPU并行。

章节 04

性能证据：实测数据与模型支持能力

推理性能

模型配置	硬件环境	总吞吐	输出吞吐
DeepSeek-R1-0528 (FP8)	8×L20 GPU + Xeon Gold 6454S	227.85 tokens/s	87.58 tokens/s (8并发)

微调性能

模型	配置	吞吐	GPU显存占用
DeepSeek-V3 (671B)	LoRA + AMX	~40 tokens/s	70GB (多卡)
DeepSeek-V2-Lite (14B)	LoRA + AMX	~530 tokens/s	6GB

Day0支持模型

快速适配Kimi-K2.5、GLM-5、MiniMax-M2.5、Qwen3-Next等最新模型，确保用户第一时间体验新技术。

章节 05

应用场景与生态：边缘AI、科研教学及跨硬件支持

应用场景

边缘AI：本地处理敏感数据（医疗、金融），数据不出域；
科研教学：降低高校大模型研究的硬件门槛；
原型验证：本地快速验证模型，缩短开发周期。

生态与硬件扩展

与SGLang推理引擎整合，提供生产级部署方案；
支持NVIDIA GPU、Intel Arc GPU、AMD ROCm、华为昇腾NPU等跨平台硬件。

章节 06

结论与建议：异构优化是大模型工程化的重要方向

KTransformers代表大模型工程化从'堆硬件'转向'优架构'的路径，证明消费级硬件可驾驭千亿参数模型。对于追求数据隐私、成本可控、响应速度的AI开发者，KTransformers是值得探索的技术栈。随着边缘AI需求增长，异构优化思路或成行业标配。

项目地址：https://github.com/kvcache-ai/ktransformers 官方文档：https://kvcache-ai.github.io/ktransformers/